Sommario:
Linkalab, in partnership con Alkemy Tech, ha curato la progettazione e messa in opera del nuovo Data Lake per SIAE, Ente pubblico economico preposto alla protezione e all'esercizio dell'intermediazione del diritto d'autore in Italia. Sophia, questo il nome del progetto, uno dei più innovativi in Italia, ha come obiettivo la realizzazione di una piattaforma IT a supporto dei processi di identificazione, elaborazione dati e ripartizione delle utilizzazioni del repertorio tutelato da parte dei digital service provider (DSP) e per tutti gli altri canali.
Presentazione progetto:
Linkalab grazie alle competenze nelle tecnologie BigData Open Source, come Hadoop e Spark, e alle competenze nello sviluppo di componenti architetturali basate su piattaforme Cloud (AWS), ha realizzato la progettazione e la messa in opera del nuovo Data Lake di SIAE, all'interno del Progetto Sophia, in collaborazione con Alkemy Tech.
La realizzazione del Progetto Sophia, è risultato strategico per la gestione dell'identificazione delle opere musicali di SIAE. Grazie a esso, SIAE, è ora in grado di processare in modo ottimizzato i flussi big data inviati dalle piattaforme digitali quali Spotify, iTunes o YouTube, che contengono i report di utilizzo delle opere in standard Digital Sales Report Message Suite (DSR). La piattaforma Sophia consente infatti di riconoscere le opere, calcolare la quota di diritti d'autore che i digital service provider devono versare alla SIAE e gestire la successiva ripartizione di tali quote tra autori ed editori secondo specifiche regole di riparto. Il cuore del sistema Sophia è il Data Lake nel quale i flussi dati esterni (report diutilizzo delle opere) e i dati enterprise (documentazione opere musicali e multimediali, schemi di riparto, regole di pricing e billing) possono confluire per essere utilizzati all'interno dei diversi step di calcolo (data cleansing, normalizzazione, integrazione, riconcilizazione, princing, riparto).
I processi di calcolo sono stati realizzati su tecnologia Spark (sviluppate da Linkalab) o su applicazioni Java dedicate (sviluppate da Alkemy Tech). Il sistema Sophia è inoltre in grado di produrre report di sintesi necessari per la comunicazione con i DSP utilizzando lo standard CCID (claim confirmation and invoice details), i documenti con i dati di ripartizione dei diritti utilizzabili dai sistemi Legacy e i dati di fatturazione verso SAP. Grazie alle ricerche svolte negli anni dal laboratorio, è stato possibile realizzare la gestione dei dati su Data Lake ed eliminare, ovunque fosse possibile, la manualità dei processi con la riprogettazione dei singoli step e la messa a fattor comune dei dati ottenuti.
La piattaforma Sophia è stata sviluppata con un approccio cloud native sfruttando servizi quali S3 e EMR per la gestione dei storage e calcolo BigData, nonché mediante un sistema di orchestrazione e workflow totalmente asincrono basato sul servizio AWS SQS. Grazie al trattamento dei metadati e alla gestione del data lineage è stato possibile realizzare strumenti di dashboarding e reporting, per consentire l'accesso ad un'interfaccia intuitiva per l’analisi dell’andamento delle elaborazioni ed il monitoraggio delle stesse.
Risultati ottenuti attraverso il Data Lake Sophia:
-Gestione dei dati in un unico repository centralizzato altamente scalabile e a basso costo
-Supporto ai flussi Big Data provenienti dai Digital Service Providers (DSP)
-Abbattimento dei costi di realizzazione e gestione del Data Lake mediante utilizzo servizi AWS
-Tracciamento metadati e data lineage per il supporto alla data governance
-Eliminazione della manualità nei processi di computazione ovunque possibile
-Ingegnerizzazione dei processi di elaborazione con un approccio Data Driven per supportare flussi Big Data
-Integrazione con i sistemi enterprise (sistemi Legacy basati su Mainframe IBM o sistemi ERP basati su SAP)
-Sistemi dashboarding e reporting che potessero permettere al business di avere contezza dell'andamento delle elaborazioni e di eventuali possibilità di miglioramento del processo