En quoi consiste un data mesh ?
Un data mesh est un cadre architectural qui résout les problèmes avancés de sécurité des données grâce à une propriété distribuée et décentralisée. Les organisations ont de multiples sources de données provenant de différents secteurs d'activité qui doivent être intégrées pour l'analytique. Une architecture data mesh réunit efficacement les sources de données disparates et les relie entre elles par le biais de directives de partage et de gouvernance des données gérées de manière centralisée. Les fonctions d'entreprise peuvent garder le contrôle sur l'accès aux données partagées, sur les personnes qui y accèdent et sur les formats dans lesquels elles sont accessibles. Un data mesh ajoute de la complexité à l'architecture, mais contribue également à l'efficacité en améliorant l'accès aux données, la sécurité et capacité de mise à l'échelle.
Quels sont les défis qu'un data mesh permet de résoudre ?
Même si les organisations ont accès à un volume de données toujours plus important, elles doivent trier, filtrer, traiter et analyser ces données pour en tirer des avantages pratiques. Les organisations ont souvent recours à une équipe centrale d'ingénieurs et de scientifiques pour la gestion des données. L'équipe utilise une plateforme de données centralisée aux fins suivantes :
- Ingérer les données provenant de toutes les différentes unités opérationnelles (ou domaines d'activité).
- Transformer les données dans un format cohérent, fiable et utilisable. Par exemple, l'équipe pourrait s'assurer que toutes les dates du système sont dans un format commun ou résumer les rapports quotidiens.
- Préparer les données pour les consommateurs de données, par exemple en générant des rapports pour les humains ou en préparant des fichiers XML pour les applications. À propos du XML »
À mesure que le volume de données augmente, les organisations doivent faire face à des coûts croissants pour conserver la même flexibilité qu'auparavant. La mise à l'échelle d'un système monolithique est difficile pour les raisons suivantes.
Compartimentage des équipes chargées des données
L'équipe centrale chargée des données est composée de scientifiques et d'ingénieurs spécialisés dans les données ayant une connaissance limitée de l'entreprise et du secteur d'activité. Cependant, ils doivent quand même fournir des données pour un ensemble diversifié de besoins opérationnels et analytiques sans en comprendre clairement la motivation.
Réactivité lente face au changement
Les ingénieurs de données implémentent généralement des pipelines qui ingèrent les données et les transforment en plusieurs étapes avant de les stocker dans un lac de données central. Tout changement demandé nécessite des modifications de l'ensemble du pipeline. L'équipe centrale doit effectuer ces changements tout en gérant des priorités contradictoires et avec une connaissance limitée du domaine d'activité.
Précision réduite
Les unités opérationnelles sont déconnectées des consommateurs de données et des équipes centrales chargées des données. Par conséquent, elles ne sont pas incitées à fournir des données significatives, correctes et utiles.
Quels sont les avantages d'un data mesh ?
Au fil du temps, une architecture de plateforme de données pourrait engendrer une frustration des consommateurs de données, une déconnexion des producteurs de données et une surcharge de l'équipe de gestion des données. L'architecture data mesh tente de résoudre ces problèmes en conférant aux unités opérationnelles une grande autonomie et la propriété de leur domaine de données. Les avantages de l'architecture data mesh sont présentés ci-dessous.
Traitement des données démocratique
Un data mesh transfère le contrôle des données aux experts du domaine qui créent des produits de données significatifs dans un cadre de gouvernance décentralisé. Les consommateurs de données demandent également l'accès aux produits de données et sollicitent des approbations ou des modifications directement auprès des propriétaires des données. Grâce à cela, tout le monde a un accès plus rapide à des données pertinentes, améliorant de ce fait la flexibilité de l'entreprise.
Flexibilité améliorée
L'infrastructure de données centralisée est plus complexe et nécessite une collaboration pour sa maintenance et sa modification. Au contraire, le data mesh réorganise l'implémentation technique du système central vers les domaines d'activité. Cela supprime les pipelines de données centraux et réduit les goulots d'étranglement opérationnels et les contraintes techniques sur le système.
Rentabilité
L'architecture de données distribuées s'éloigne du traitement par lots, favorisant plutôt l'adoption du flux de données en temps réel. Vous améliorez la visibilité en matière d'allocation des ressources et de coûts de stockage, ce qui se traduit par une meilleure budgétisation et une réduction des coûts.
En savoir plus sur les architectures de données.
Découverte des données améliorée
Un modèle de data mesh empêche la formation de silos de données autour des équipes d'ingénierie centrales. Il réduit également le risque que les ressources de données soient bloquées dans différents systèmes de domaines d'activité. Au lieu de cela, le cadre central de gestion des données enregistre et régit les données disponibles dans l'organisation. Par exemple, les équipes chargées d'un domaine enregistrent automatiquement leurs données dans un registre central.
Sécurité et conformité renforcées
Les architectures data mesh appliquent des politiques de sécurité des données à la fois au sein des domaines et entre eux. Ils assurent un contrôle et un audit centralisés du processus de partage des données. Par exemple, vous pouvez imposer des exigences en matière de données de journal et de suivi à tous les domaines. Vos auditeurs peuvent observer l'utilisation et la fréquence de l'accès aux données.
Quels sont les cas d'utilisation d'un data mesh ?
Un data mesh peut prendre en charge tous les types de cas d'utilisation de big data. Nous en donnons quelques exemples ci-dessous.
Analytiques des données
De multiples fonctions d'entreprise fournissent des données fiables et de haute qualité pour vos charges de travail analytiques de données. Vos équipes peuvent utiliser les données pour créer des tableaux de bord d'informatique décisionnelle personnalisés présentant les performances des projets, les résultats marketing et les données opérationnelles. Les scientifiques des données peuvent accélérer les projets de machine learning pour tirer tous les avantages de l'automatisation.
Service clientèle
Un data mesh fournit une vue d'ensemble des clients aux équipes d'assistance et de marketing. Par exemple, les équipes d'assistance peuvent extraire des données pertinentes et réduire le temps de traitement moyen, et les équipes de marketing peuvent s'assurer qu'elles ciblent les bonnes données démographiques des clients dans leurs campagnes.
Rapports réglementaires
Le besoin de volume, d'actualité et d'exactitude des données qui répondent aux objectifs réglementaires pose des défis tant aux régulateurs qu'aux entreprises réglementées. Toutes les parties peuvent bénéficier de l'application des technologies de data mesh. Par exemple, les organisations peuvent pousser les données de déclaration dans un data mesh régi de manière centralisée par les régulateurs.
Données de tierces parties
Vous pouvez appliquer la technologie de data mesh aux cas d'utilisation qui nécessitent des jeux de données publiques et de tierces parties. Vous pouvez traiter les données externes comme un domaine distinct et les implémenter dans le data mesh pour assurer la cohérence avec les jeux de données internes.
Quels sont les principes de l'architecture data mesh ?
Votre organisation doit implémenter les quatre principes suivants pour adopter le paradigme du data mesh.
Architecture distribuée pilotée par le domaine d'activité
L'approche data mesh propose que la responsabilité de la gestion des données soit organisée autour des fonctions d'entreprise ou des domaines d'activité. Les équipes chargées d'un domaine sont chargées de collecter, de transformer et de fournir des données liées à leurs fonctions d'entreprise ou créées par elles. Au lieu de faire circuler les données du domaine depuis les sources de données vers une plateforme de données centrale, une équipe spécifique héberge et met à disposition ses jeux de données d'une manière facilement exploitable. Par exemple, un détaillant pourrait avoir un domaine dédié aux vêtements contenant des données sur ses produits vestimentaires et un domaine dédié au comportement du site web contenant des analyses du comportement des visiteurs du site.
Données en tant que produit
Pour qu'une implémentation de data mesh soit réussie, chaque équipe chargée d'un domaine doit appliquer une réflexion axée produit aux jeux de données qu'elle fournit. Ils doivent considérer leurs ressources de données comme leurs produits et le reste des équipes chargées des données et de secteurs d'activité de l'organisation comme leurs clients.
Pour une expérience utilisateur optimale, les produits de données du domaine doivent présenter les qualités de base suivantes.
Découvrables
Chaque produit de données s'inscrit dans un catalogue de données centralisé pour une découverte facile.
Adressables
Chaque produit de données doit avoir une adresse unique qui permet aux consommateurs de données d'y accéder de manière programmatique. L'adresse suit généralement les normes de nommage décidées de manière centralisée au sein de l'organisation.
Fiables
Les produits de données définissent des objectifs de niveau de service acceptables selon la précision avec laquelle les données reflètent la réalité des événements qu'elles documentent. Par exemple, le domaine des commandes pourrait publier des données après avoir vérifié l'adresse et le numéro de téléphone d'un client.
Autodescriptifs
Tous les produits de données ont une syntaxe et une sémantique bien décrites qui suivent les conventions de dénomination standard déterminées par l'organisation.
Infrastructure de données en libre-service
Une architecture de données distribuées exige que chaque domaine mette en place son propre pipeline de données pour nettoyer, filtrer et charger ses propres produits de données. Un data mesh introduit le concept d'une plateforme de données en libre-service pour éviter la duplication des efforts. Les ingénieurs de données mettent en place des technologies afin que toutes les unités opérationnelles puissent traiter et stocker leurs produits de données. L'infrastructure en libre-service permet ainsi une répartition des responsabilités. Les équipes d'ingénierie des données gèrent la technologie tandis que les équipes opérationnelles gèrent les données.
Gouvernance des données fédérée
Les architectures data mesh implémentent la sécurité comme une responsabilité partagée au sein de l'organisation. Le leadership détermine les normes et les politiques globales que vous pouvez appliquer dans tous les domaines. Dans le même temps, l'architecture décentralisée des données permet un large degré d'autonomie sur la mise en œuvre des normes et des politiques au sein du domaine.
Comment créer un data mesh dans votre organisation ?
Le data mesh est un concept émergent qui n'a pris de l'ampleur qu'après la pandémie. Les organisations expérimentent différentes technologies à mesure qu'elles tentent de créer un data mesh pour des cas d'utilisation spécifiques. Cependant, l'adoption du data mesh à l'échelle de l'entreprise est encore rare. Il n'existe pas de voie claire pour implémenter le data mesh, mais voici quelques suggestions.
Analyser vos données existantes
Avant de créer un data mesh, vous devez cataloguer vos données existantes et identifier les domaines d'activité pertinents. Le respect de certaines règles d'harmonisation est la clé de la corrélation efficace des données entre les domaines. Par exemple, vous devrez définir des normes mondiales pour le formatage des types de champs, les champs de métadonnées et les conventions d'adresse des produits de données.
Implémenter des politiques globales de gouvernance des données
La gouvernance des données fédérées exige que votre équipe informatique centrale identifie les normes en matière de rapports, d’authentification et de conformité pour le maillage de données. Vous pouvez également définir des contrôles d'accès granulaires que les propriétaires de produits de données appliquent lorsqu'ils hébergent leurs jeux de données. Alors que les producteurs de données définissent et mesurent la qualité des données, les politiques de gouvernance centrale aident à orienter leurs décisions.
Créer votre plateforme de données en libre-service
Votre plateforme de données en libre-service doit être générique, afin que tout le monde puisse y créer des produits de données du domaine. Elle doit également masquer la complexité technique sous-jacente et fournir des composants d'infrastructure en libre-service. Voici quelques possibilités à inclure :
- Chiffrement des données
- Schéma de produits de données
- Gouvernance et contrôle d'accès
- Découverte de produits de données, comme l'enregistrement ou la publication de catalogues
- Journalisation et surveillance des produits de données
- Mise en cache pour des performances améliorées
Vous pouvez également créer des automatismes, tels que des configurations et des scripts, afin de réduire le temps nécessaire pour créer des produits de données.
Choisir les bonnes technologies
Vos systèmes de stockage traditionnels existants, comme les entrepôts de données et les lacs de données, peuvent également alimenter votre data mesh. Il suffit de faire évoluer leur utilisation pour passer de systèmes monolithiques à de multiples référentiels de données décentralisés. Un data mesh permet également l'adoption de plateformes cloud et de technologies centrées sur le cloud. L'infrastructure cloud réduit les coûts opérationnels et l'effort nécessaire pour créer un data mesh. Vous devez choisir un fournisseur cloud offrant des services de gestion de données enrichis pour prendre en charge votre architecture data mesh. Vous devrez également tenir compte des exigences d'intégration des données avec les systèmes hérités.
Amorcer un changement culturel à l'échelle de l'organisation
Aujourd'hui, nous disposons de la technologie et des outils nécessaires pour créer facilement un data mesh avec de multiples produits de données. Le passage à l'unification du traitement par lots et du streaming est désormais plus aisé que jamais grâce à des outils comme Amazon EMR. Cependant, la mise à l'échelle de votre data mesh au-delà des petits projets nécessite un changement de paradigme par rapport aux architectures de données centralisées du passé. Elle nécessite un nouveau langage qui met l'accent sur les points suivants :
- Découverte et utilisation des données plutôt que leur extraction et leur chargement
- Traitement des données en temps réel plutôt qu'un traitement par lots de gros volumes à une date ultérieure
- Propriété des produits de données distribués plutôt qu'une architecture de plateforme de données centrale
À l'heure actuelle, la technologie des données détermine souvent les décisions en matière d'architecture. Un data mesh inverse ce flux, en plaçant les produits de données du domaine au centre de sorte qu'ils déterminent plutôt les décisions technologiques.
Quelle est la différence entre un data mesh et un lac de données ?
Un lac de données est un référentiel où vous pouvez stocker toutes vos données structurées et non structurées sans aucun prétraitement et à n'importe quelle échelle. Dans les plateformes de données centralisées, le lac de données est la technologie de base pour le stockage des données provenant de toutes les sources possibles.
Un data mesh est un paradigme de gestion des données qui utilise les lacs de données différemment. Le lac de données n'est plus la pièce maîtresse de toute l'architecture. Au contraire, vous pouvez l'utiliser pour implémenter des produits de données ou comme élément de l'infrastructure en libre-service.
Quelle est la différence entre data mesh et data fabric ?
Un tissu de données est une autre architecture moderne qui utilise le machine learning et l’automatisation pour l’intégration de bout en bout de divers environnements cloud et autres pipelines de données. Vous pouvez le considérer comme une couche technologique au-dessus de votre infrastructure sous-jacente qui intègre et présente les données de manière cohérente aux utilisateurs non techniques. Par exemple, les décideurs utilisent le data fabric pour visualiser toutes leurs données en un seul endroit et établir des connexions entre des jeux de données hétérogènes.
Le data fabric et le data mesh ont tous deux des objectifs similaires : une gestion unifiée et efficace des données. Par exemple, disons que vous avez un lac de données central et que vous utilisez les services AWS pour l'ingestion de données. En même temps, vous disposez d'une infrastructure héritée pour les transformations de données. Votre data fabric intègre les deux systèmes et présente une vue unifiée sans modifier le pipeline existant.
Un data fabric utilise donc la technologie pour travailler avec votre infrastructure existante. D'autre part, une implémentation de data mesh vous oblige à modifier l'infrastructure sous-jacente elle-même. Vous devez changer le modèle push-and-ingest (pousser et ingérer) de votre gestion des données en un modèle serve-and-pull (servir et extraire) dans tous vos domaines d'activité.
Comment AWS peut-il prendre en charge vos architectures data mesh ?
Modern Data Architecture on AWS répertorie plusieurs services que vous pouvez utiliser pour implémenter le data mesh et d'autres architectures de données modernes dans votre organisation. Vous pouvez rapidement créer des produits de données et une infrastructure de data mesh à faible coût sans compromettre les performances.
Voici des exemples de services AWS que vous pouvez utiliser :
- Utiliser AWS Lake Formation pour créer un modèle de data mesh à grande échelle (langue française non garantie) avec un contrôle d'accès basé sur les balises
- Utiliser AWS Data Exchange pour intégrer des données de tierces parties dans votre data mesh (langue française non garantie)
- Utiliser AWS Glue pour partager, héberger et cataloguer les produits de données
Démarrez avec votre maillage de données sur AWS en créant un compte gratuit dès aujourd'hui.