Cos'è una mesh di dati?
Una mesh di dati è una struttura organizzativa che risolve i problemi di sicurezza avanzata dei dati attraverso una titolarità distribuita e decentralizzata. Le organizzazioni dispongono di più origini dati, provenienti da diverse linee di attività, che devono essere integrate per l'analisi. Un'architettura di mesh di dati unisce efficacemente le diverse origini dati e le collega tra loro attraverso linee guida per la condivisione e la governance dei dati gestite a livello centrale. Le funzioni operative possono mantenere il controllo sulle modalità di accesso ai dati condivisi, sui soggetti che vi accedono e sui formati di accesso. Una mesh di dati aggiunge complessità all'architettura, ma porta anche efficienza migliorando l'accesso ai dati, la sicurezza e la scalabilità.
A quali sfide risponde una mesh di dati?
Sebbene le organizzazioni abbiano accesso a un volume di dati sempre crescente, devono ordinare, filtrare, elaborare e analizzare i dati per trarne vantaggi pratici. Spesso le organizzazioni ricorrono a un team centrale di ingegneri e scienziati per la gestione dei dati. Il team usa una piattaforma dati personalizzata per i seguenti scopi:
- Importare i dati da tutte le diverse unità aziendali (o domini aziendali).
- Trasformare i dati in un formato coerente, affidabile e utile. Ad esempio, il team potrebbe assicurarsi che tutte le date nel sistema siano in un formato comune o riassumere i report giornalieri.
- Preparare i dati per i consumatori, ad esempio generando report per gli utenti o preparando file XML per le applicazioni. Ulteriori informazioni su XML »
Con l'aumento del volume dei dati, le organizzazioni devono affrontare costi crescenti per mantenere la stessa agilità di prima. Il sistema monolitico è difficile da dimensionare per i seguenti motivi.
Team dati in silo
Il team dati centrale composto da data scientist e ingegneri specializzati con una conoscenza limitata del business e del dominio. Tuttavia, devono comunque fornire dati per una serie di esigenze operative e analitiche senza una chiara comprensione della motivazione.
Lentezza nella risposta ai cambiamenti
Gli ingegneri di dati di solito implementano pipeline che importano i dati e li trasformano in diverse fasi prima di archiviarli in un data lake centrale. Qualsiasi modifica richiesta comporta delle modifiche all'intera pipeline. Il team centrale deve apportare queste modifiche gestendo priorità contrastanti e con una conoscenza limitata del dominio aziendale.
Minore accuratezza
Le unità aziendali sono scollegate dai consumatori di dati e dai team dati centrale. Di conseguenza, non sono incentivate a fornire dati significativi, corretti e utili.
Quali sono i vantaggi di una mesh di dati?
Nel corso del tempo, l'architettura di una piattaforma di dati potrebbe portare a consumatori di dati frustrati, produttori di dati disconnessi e un team di gestione dei dati sovraccarico. L'architettura di mesh di dati tenta di risolvere queste sfide dando alle unità aziendali la possibilità di avere un'elevata autonomia e proprietà del proprio dominio di dati. I vantaggi dell'architettura di mesh di dati sono indicati di seguito.
Elaborazione di dati democratica
Una mesh di dati trasferisce il controllo dei dati agli esperti del settore che creano prodotti di dati significativi all'interno di un quadro di governance decentralizzato. I consumatori di dati richiedono inoltre l'accesso ai prodotti di dati e chiedono approvazioni o modifiche direttamente ai proprietari dei dati. Di conseguenza, tutti hanno un accesso più rapido ai dati rilevanti migliorando così l'agilità aziendale.
Incremento della flessibilità
L'infrastruttura dati centralizzata è più complessa e richiede una collaborazione per la manutenzione e la modifica. Invece, la mesh di dati riorganizza l'implementazione tecnica del sistema centrale in base ai domini aziendali. In questo modo si eliminano le pipeline di dati centrali e si riducono i colli di bottiglia operativi e le tensioni tecniche sul sistema.
Efficienza dei costi
L'architettura distribuita dei dati si allontana dall'elaborazione in batch, promuovendo invece l'adozione dello streaming dei dati in tempo reale. Migliora la visibilità sull'allocazione delle risorse e sui costi di archiviazione, con conseguente miglioramento del budget e riduzione dei costi.
Scopri di più sulle architetture dei dati.
Miglioramento del rilevamento dei dati
Un modello di mesh di dati impedisce la formazione di silo di dati intorno ai team di ingegneria centrali. Inoltre, riduce il rischio che le risorse di dati rimangano bloccate all'interno di diversi sistemi di dominio aziendale. Al contrario, il quadro centrale di gestione dei dati regola e registra i dati disponibili nell'organizzazione. Ad esempio, i team del dominio registrano automaticamente i loro dati in un registro centrale.
Rafforzamento della sicurezza e della conformità
Le architetture di mesh di dati applicano le policy di sicurezza dei dati sia all'interno dei domini che tra gli stessi. Forniscono un monitoraggio e una verifica centralizzati del processo di condivisione dei dati. Ad esempio, puoi imporre i requisiti dei dati di log e di tracciamento a tutti i domini. I revisori possono osservare l'utilizzo e la frequenza di accesso ai dati.
Quali sono i casi d’uso di una mesh di dati?
Una mesh di dati può supportare tutti i tipi di casi d'uso dei big data. Di seguito riportiamo alcuni esempi.
Analisi di dati
Molteplici funzioni aziendali forniscono dati affidabili e di alta qualità per i tuoi carichi di lavoro di analisi dei dati. I tuoi team possono utilizzare i dati per creare pannelli di controllo di business intelligence personalizzati che mostrino le prestazioni dei progetti, i risultati di marketing e i dati operativi. I data scientist possono accelerare i progetti di machine learning per trarre tutti i vantaggi dell'automazione.
Assistenza clienti
Una mesh di dati offre una visione completa dei clienti per i team di assistenza e marketing. Ad esempio, i team di supporto possono estrarre dati rilevanti e ridurre il tempo medio di gestione, mentre i team di marketing possono assicurarsi di indirizzare le loro campagne ai clienti giusti in base ai dati demografici.
Creazione di report normativi
L'esigenza di volume, tempestività e accuratezza dei dati per soddisfare gli obiettivi normativi pone sfide sia alle autorità di regolamentazione sia alle imprese regolamentate. Tutte le parti possono trarre vantaggio dall'applicazione di tecnologie di mesh di dati. Ad esempio, le organizzazioni possono inserire i dati dei reportg in una mesh di dati gestita a livello centrale dalle autorità di regolamentazione.
Dati di terze parti
Puoi applicare la tecnologia di mesh di dati a casi d'uso che richiedono set di dati pubblici e di terze parti. Puoi trattare i dati esterni come un dominio separato e implementarli nel mesh per garantire la coerenza con i set di dati interni.
Quali sono i principi dell'architettura di mesh di dati?
Per adottare il paradigma della mesh di dati, l'organizzazione deve implementare i quattro principi seguenti.
Architettura distribuita orientata al dominio
L'approccio della mesh di dati propone che la responsabilità della gestione dei dati sia organizzata in base alle funzioni o ai domini aziendali. I team del dominio sono responsabili della raccolta, della trasformazione e della fornitura di dati relativi o creati dalle loro funzioni aziendali. Invece di far confluire i dati di dominio dalle origini dati in una piattaforma dati centrale, un team specifico ospita e serve i propri set di dati in modo facilmente consumabile. Ad esempio, un rivenditore potrebbe avere un dominio per l'abbigliamento con dati sui suoi prodotti di abbigliamento e un dominio per il comportamento del sito web che contiene analisi del comportamento dei visitatori del sito.
Dati come prodotto
Affinché l'implementazione di una mesh di dati abbia successo, ogni team del dominio deve applicare il pensiero di prodotto ai set di dati offerti. Devono considerare le loro risorse di dati come i loro prodotti e il resto dei team aziendali e dei dati dell'organizzazione come i loro clienti.
Per una migliore esperienza utente, i prodotti di dati del dominio devono avere le seguenti qualità di base.
Individuabili
Ogni prodotto di dati si registra in un catalogo di dati centralizzato per facilitarne l'individuazione.
Indirizzabili
Ogni prodotto di dati deve avere un indirizzo unico che aiuti i consumatori di dati ad accedervi in modo programmatico. In genere l'indirizzo segue gli standard di denominazione decisi a livello centrale all'interno dell'organizzazione.
Affidabili
I prodotti di dati definiscono obiettivi del livello di servizio accettabili in base all'accuratezza con cui i dati riflettono la realtà degli eventi che documentano. Ad esempio, il dominio degli ordini potrebbe pubblicare i dati dopo aver verificato l'indirizzo e il numero di telefono di un cliente.
Autodescrittivi
Tutti i prodotti di dati hanno una sintassi e una semantica ben descritte che seguono le convenzioni di denominazione standard stabilite dall'organizzazione.
Infrastruttura dati self-service
Un'architettura dati distribuita richiede che ogni dominio imposti la propria pipeline di dati per pulire, filtrare e caricare i propri prodotti di dati. Una mesh di dati introduce il concetto di piattaforma di dati self-service per evitare la duplicazione degli sforzi. Gli ingegneri di dati configurano le tecnologie in modo che tutte le unità aziendali possano elaborare e archiviare i loro prodotti di dati. L'infrastruttura self-service consente pertanto una divisione delle responsabilità. I team di ingegneria dei dati gestiscono l'aspetto tecnologico, mentre i team aziendali gestiscono i dati.
Governance dei dati federata
Le architetture di mesh di dati implementano la sicurezza come responsabilità condivisa all'interno dell'organizzazione. La leadership determina gli standard e le policy globali che si possono applicare a tutti i domini. Allo stesso tempo, l'architettura dati decentralizzata consente un ampio grado di autonomia nell'implementazione degli standard e delle policy all'interno del dominio.
Come puoi creare una mesh di dati nella tua organizzazione?
La mesh di dati è un concetto emergente che ha preso piede solo dopo la pandemia. Le organizzazioni stanno sperimentando diverse tecnologie nel tentativo di costruire una mesh di dati per casi d'uso specifici. Tuttavia, l'adozione a livello dell'intera organizzazione della mesh di dati è ancora rara. Non esiste un percorso chiaro verso l'implementazione della mesh di dati, ma ecco alcuni suggerimenti.
Analizza i tuoi dati esistenti
Prima di creare una mesh di dati, è necessario catalogare i dati esistenti e identificare i domini aziendali rilevanti. Il rispetto di determinate regole di armonizzazione è la chiave per una correlazione efficace dei dati tra domini. Ad esempio, dovrai definire standard globali per la formattazione dei tipi di campo, per i campi di metadati e per le convenzioni di indirizzo dei prodotti di dati.
Implementa policy di governance dei dati globali
La governance dei dati federata richiede che il team IT centrale identifichi gli standard di creazione dei report, autenticazione e conformità per il data mesh. Puoi anche definire controlli granulari degli accessi che i proprietari dei prodotti di dati applicano quando ospitano i loro set di dati. Mentre i produttori di dati definiscono e misurano la qualità dei dati, le policy di governance centrale aiutano a guidare le loro decisioni.
Crea la tua piattaforma di dati self-service
La tua piattaforma di dati self-service deve essere generica, in modo che chiunque possa crearci sopra nuovi prodotti di dati del dominio. Deve inoltre nascondere la complessità tecnica sottostante e fornire autonomamente i componenti dell'infrastruttura. Ecco alcune funzionalità da includere:
- Crittografia dei dati
- Schema del prodotto di dati
- Governance e controllo degli accessi
- Individuazione del prodotto di dati, come una registrazione o pubblicazione nel catalogo
- Registrazione di log e monitoraggio del prodotto di dati
- Memorizzazione nella cache per prestazioni migliorate
Puoi anche creare automazione, come configurazioni e script, per ridurre i tempi di creazione dei prodotti di dati.
Scegli le tecnologie giuste
Anche i sistemi di archiviazione tradizionali esistenti, come i data warehouse e i data lake, possono alimentare la tua mesh di dati. È sufficiente spostare il loro utilizzo da sistemi monolitici a più repository di dati decentralizzati. Una mesh di dati consente anche l'adozione di piattaforme cloud e tecnologie orientate al cloud. L'infrastruttura cloud riduce i costi operativi e lo sforzo necessario per la creazione di una mesh di dati. Devi scegliere un fornitore di servizi cloud con ricchi servizi di gestione dei dati per supportare la tua architettura di mesh di dati. Dovrai anche considerare i requisiti di integrazione dei dati con i sistemi legacy.
Avvia un cambiamento culturale a livello dell'intera organizzazione
Oggi disponiamo della tecnologia e degli strumenti necessari per costruire facilmente una mesh di dati con più prodotti. Il passaggio all'unificazione di batch e streaming è ora più facile che mai con strumenti come Amazon EMR. Tuttavia, per dimensionare la mesh di dati oltre i piccoli progetti è necessario un cambiamento di paradigma rispetto alle architetture di dati centralizzate del passato. Richiede un nuovo linguaggio che enfatizzi quanto segue:
- Individuazione e utilizzo dei dati rispetto all'estrazione e al caricamento
- Elaborazione dei dati in tempo reale rispetto all'elaborazione in batch di grandi volumi in un secondo momento
- Proprietà distribuita del prodotto di dati rispetto all'architettura della piattaforma dati centrale
Attualmente, la tecnologia dei dati è spesso alla base delle decisioni architettoniche. Una mesh di dati inverte questo flusso, mettendo al centro i prodotti dei dati di dominio in modo che siano loro a guidare le decisioni tecnologiche.
Quale è la differenza tra una mesh di dati e un data lake?
Un data lake è un repository in cui puoi archiviare tutti i dati strutturati e non strutturati senza alcuna pre-elaborazione e su qualsiasi scala. Nelle piattaforme di dati centralizzate, il data lake è la tecnologia principale per l'archiviazione dei dati provenienti da tutte le origini possibili.
Una mesh di dati è un paradigma di gestione dei dati che utilizza i data lake in modo diverso. Il data lake non è più il fulcro dell'intera architettura. Puoi invece utilizzarlo per implementare prodotti di dati o come parte dell'infrastruttura self-service.
Quale è la differenza tra una mesh di dati e un data fabric?
Un data fabric è un'altra architettura moderna che utilizza il machine learning e l'automazione per l'integrazione end-to-end di vari ambienti cloud e pipeline di dati. Puoi considerarlo un livello tecnologico sopra l'infrastruttura sottostante che integra e presenta i dati in modo coerente agli utenti non tecnici. Ad esempio, i responsabili delle decisioni utilizzano il data fabric per visualizzare tutti i dati in un unico luogo e creare collegamenti tra set di dati diversi.
Sia il data fabric che la mesh di dati hanno obiettivi simili: una gestione dei dati unificata ed efficace. Ad esempio, immagina di avere un data lake centrale e di usare i servizi AWS per l'importazione dei dati. Allo stesso tempo, disponi di un'infrastruttura legacy per le trasformazioni dei dati. Il tuo data fabric integra entrambi i sistemi e presenta una vista unificata senza modificare la pipeline esistente.
Un data fabric usa la tecnologia per lavorare con la tua infrastruttura esistente. D'altra parte, l'implementazione di una mesh di dati richiede la modifica dell'infrastruttura sottostante. Devi cambiare il modello di gestione dei dati da push-and-ingest a serve-and-pull in tutti i domini aziendali.
In che modo AWS può supportare le tue architetture di data mesh?
Architettura moderna dei dati su AWS elenca diversi servizi che puoi utilizzare per implementare le architetture di mesh di dati e altre architetture dati moderne nella tua organizzazione. Puoi creare rapidamente prodotti di dati e infrastrutture di mesh di dati a bass costo senza compromettere le prestazioni.
Ecco qualche esempio dei servizi AWS che puoi utilizzare:
- Usa AWS Lake Formation per creare modelli di mesh di dati su larga scala con controllo degli accessi basato su tag
- Usa Scambio dati AWS per integrare dati di terze parti nella tua mesh di dati
- Usa AWS Glue per la condivisione, l'hosting e la catalogazione dei prodotti di dati
Inizia a utilizzare la tua data mesh in AWS creando un account gratuito oggi stesso.
Fasi successive della data mash
Ottieni accesso istantaneo al Piano gratuito di AWS.