Sfida
Il cliente, società leader nel settore del marketing e della pubblicità digitale, ha iniziato un programma di trasformazione IT finalizzato a creare una nuova piattaforma dati con Google Cloud Platform verso cui migrare il datawarehouse esistente e le applicazioni di reporting, per raggiungere i seguenti obiettivi:
- Adottare una nuova piattaforma dati flessibile, modulare e scalabile, semplificando l’architettura attuale mediante l’introduzione di uno stack tecnologico basato sul cloud
- Migliorare la qualità dei dati
- Creare di una vista dati unificata che includa tutte le entità con cui è possibile descrivere il business aziendale e monitorarne le performance
- Anonimizzare i dati sensibili secondo le norme GDPR
Soluzione
Per l’implementazione della data platform sono stati utilizzati Google Cloud Storage come data lake e Google BigQuery come data warehouse. I dati sono stati organizzati in zone:
- Nella Raw Zone si trovano i dati grezzi suddivisi, in base al loro utilizzo, in landing (dati non ancora processati), archived (dati già processati con successo ed archiviati), e invalid (dati processati senza successo), oltre ai dati relativi ai log nella Logging zone.
- Nella Processed Zone su BigQuery si trovano i dati strutturati che hanno passato con successo un primo livello di pulizia e normalizzazione.
- Nella Refined Zone si trovano i dati trasformati nella vista unificata, disponibili per le esigenze di analisi e reporting
Il sistema di caricamento dati è stato implementato in maniera flessibile, modulare e scalabile, permettendo l’aggiunta di nuovi flussi e/o sistemi sorgente con un impatto minimo.
La flessibilità caratterizza anche la fase di costruzione delle viste per il reporting, la quale prevede la possibilità di aggiungere nuovi KPI in maniera parametrica: in questo modo le strutture vengono aggiornate automaticamente in fase di rilascio, senza bisogno di modifiche manuali al codice.
Nella Refined Zone insistono anche modelli predittivi, i cui risultati sono a loro volta disponibili per ulteriori analisi (es. customer churn prediction).
La schedulazione dei processi è gestita con Cloud Composer, mentre per il loro monitoraggio, inclusa la verifica della data quality, sono state definite soglie di alerting con invio automatico di email tramite Cloud Logging; per analisi più approfondite è disponibile un cruscotto realizzato con con Google Data Studio.
A supporto della Governance, per garantire la tracciabilità delle informazioni dai sistemi sorgente fino alle viste per il reporting, è stato implementata la funzionalità di data lineage, accessibile dal servizio Google Data Catalog, da cui è anche possibile accedere a descrizione ed altre informazioni di tutte le entità (tabelle, campi, files…) presenti nella data platform.
Durante l’implementazione è stata sempre posta la massima attenzione al controllo dei costi, attraverso il monitoraggio continuo dell’impatto del codice rilasciato e la verifica dell’applicazione delle best practice.
Risultati
- Completa revisione di tutti gli indici di monitoraggio delle performance aziendali attraverso la definizione di KPI
- Reengineering su Google BigQuery del data warehouse on-premise
- Velocizzazione dei processi di caricamento e trasformazione
- Riduzione del tempo necessario per rendere disponibili i dati al reporting
- Integrazione, nel data warehouse, dei nuovi sistemi di Pianificazione, Finance, HR, CRM, Commissioning, Campaign Management e Analisi sito web
- Adozione della metodologia CI/CD per l’automazione ed il monitoraggio continuo del ciclo di vita del codice congiuntamente ad un approccio di tipo «Test Driven Development»
Le informazioni contenute in questo documento sono di proprietà.
Copyright © 2014 Qintesi S.p.A. Tutti i diritti riservati.