Torna indietro

Enterprise data platform con Google Cloud

Sfida

Il cliente, società leader nel settore del marketing e della pubblicità digitale, ha iniziato un programma di trasformazione IT finalizzato a creare una nuova piattaforma dati con Google Cloud Platform verso cui migrare il datawarehouse esistente e le applicazioni di reporting, per raggiungere i seguenti obiettivi:

  • Adottare una nuova piattaforma dati flessibile, modulare e scalabile, semplificando l’architettura attuale mediante l’introduzione di uno stack tecnologico basato sul cloud
  • Migliorare la qualità dei dati
  • Creare di una vista dati unificata che includa tutte le entità con cui è possibile descrivere il business aziendale e monitorarne le performance  
  • Anonimizzare i dati sensibili secondo le norme GDPR

Soluzione

Per l’implementazione della data platform sono stati utilizzati Google Cloud Storage come data lake e Google BigQuery come data warehouse. I dati sono stati organizzati in zone:

  • Nella Raw Zone si trovano i dati grezzi suddivisi, in base al loro utilizzo, in landing (dati non ancora processati), archived (dati già processati con successo ed archiviati), e invalid (dati processati senza successo), oltre ai dati relativi ai log nella Logging zone.
  • Nella Processed Zone su BigQuery si trovano i dati strutturati che hanno passato con successo un primo livello di pulizia e normalizzazione.
  • Nella Refined Zone si trovano i dati trasformati nella vista unificata, disponibili per le esigenze di analisi e reporting

Il sistema di caricamento dati è stato implementato in maniera flessibile, modulare e scalabile, permettendo l’aggiunta di nuovi flussi e/o sistemi sorgente con un impatto minimo.
La flessibilità caratterizza anche la fase di costruzione delle viste per il reporting, la quale prevede la possibilità di aggiungere nuovi KPI in maniera parametrica: in questo modo le strutture vengono aggiornate automaticamente in fase di rilascio, senza bisogno di modifiche manuali al codice.
Nella Refined Zone insistono anche modelli predittivi, i cui risultati sono a loro volta disponibili per ulteriori analisi (es. customer churn prediction).

La schedulazione dei processi è gestita con Cloud Composer, mentre per il loro monitoraggio, inclusa la verifica della data quality, sono state definite soglie di alerting con invio automatico di email tramite Cloud Logging; per analisi più approfondite è disponibile un cruscotto realizzato con con Google Data Studio.

A supporto della Governance, per garantire la tracciabilità delle informazioni dai sistemi sorgente fino alle viste per il reporting, è stato implementata la funzionalità di data lineage, accessibile dal servizio Google Data Catalog, da cui è anche possibile accedere a descrizione ed altre informazioni di tutte le entità (tabelle, campi, files…) presenti nella data platform.
Durante l’implementazione è stata sempre posta la massima attenzione al controllo dei costi, attraverso il monitoraggio continuo dell’impatto del codice rilasciato e la verifica dell’applicazione delle best practice. 

Risultati

Le informazioni contenute in questo documento sono di proprietà.
Copyright © 2014 Qintesi S.p.A. Tutti i diritti riservati.

Ricevi la nostra newsletter

Compila il form qui di seguito con i tuoi dati per rimanere sempre aggiornato sulle novità e gli eventi di Qintesi.

Come realizzare un profitto sostenibile

Approfondisci i trend e le linee guida per un’impresa sostenibile