Important : la solution de streaming de données pour Amazon Kinesis sera mise hors service le 18 janvier 2025. Passé ce délai, tous les déploiements existants continueront de fonctionner et les clients conserveront le contrôle total de leurs environnements et de leurs données. Toutefois, la solution ne sera plus prise en charge ni maintenue.
Présentation
La solution de streaming de données pour Amazon Kinesis comprend quatre options de déploiement et les modèles AWS CloudFormation qui les accompagnent, configurés pour appliquer les meilleures pratiques en matière de diffusion de données, notamment la surveillance des données via des tableaux de bord et des alarmes, ainsi que la sécurité des données.
Les données de streaming doivent être capturées durablement par un stockage extrêmement évolutif, capable de gérer un volume élevé de données provenant des producteurs de données. Un producteur peut être composé de milliers de sources de données, chacune générant en permanence des données de streaming. Ces sources soumettent généralement des enregistrements simultanément en petits formats (kilo-octets).
Cette solution AWS vous aide à gérer, sécuriser et stocker une grande variété de données en continu, telles que les fichiers journaux générés par vos clients à l’aide d’applications mobiles ou web. Elle prend également en charge la diffusion des données en streaming provenant des achats électroniques, de l'activité des joueurs, les informations provenant de réseaux sociaux, de salles de marché ou de services géospatiaux, et la télémétrie d'appareils ou d'instruments connectés dans des centres de données.
Avantages
Détails techniques
Vous pouvez déployer automatiquement cette architecture à l'aide du guide d'implémentation et des quatre modèles AWS CloudFormation qui l'accompagnent.
-
Option 1
-
Option 2
-
Option 3
-
Option 4
-
Option 1
-
Modèle AWS CloudFormation qui utilise Amazon API Gateway et AWS Lambda
Étape 1
L'API REST d'Amazon API Gateway agit comme un proxy pour Amazon Kinesis Data Streams, notamment en ajoutant soit un enregistrement de données individuel, soit une liste d'enregistrements de données.Étape 2
Un groupe d'utilisateurs Amazon Cognito est utilisé pour contrôler qui peut appeler les méthodes de l'API REST.Étape 3
Kinesis Data Streams stocke les données de streaming entrantes.Étape 4
Une fonction AWS Lambda traite les enregistrements du flux de données.Étape 5
Les erreurs et les échecs d'enregistrements qui se produisent pendant le traitement Lambda sont annotés et les événements stockés dans Amazon Simple Queue Service (Amazon SQS).
La file d'attente stocke les métadonnées des enregistrements en lots ayant échoué et des erreurs Lambda. Le client peut ainsi récupérer ces enregistrements et déterminer les prochaines étapes pour corriger les erreurs.
À propos de ce déploiementDate de publication- Date de publication
Options de déploiementPrêt à vous lancer ?Déployer cette solution en la lançant dans votre console AWS -
Option 2
-
Modèle AWS CloudFormation qui utilise Amazon EC2, Amazon Kinesis Producer Library, Amazon Kinesis Data Streams, le service géré Amazon pour Apache Flink et Amazon CloudWatch
Étape 1
Une instance Amazon Elastic Compute Cloud (Amazon EC2) utilise la bibliothèque Amazon Kinesis Producer (KPL) pour générer des données.Étape 2
Kinesis Data Streams stocke le flux de données entrantes.Étape 3
Service géré Amazon pour Apache Flink Studio traite les enregistrements entrants et enregistre les données traitées dans un compartiment Amazon Simple Storage Service (Amazon S3).Étape 4
Un tableau de bord Amazon CloudWatch contrôle l'état de l'application, sa progression, l'utilisation des ressources, les événements et les erreurs.À propos de ce déploiementDate de publication- Date de publication
Options de déploiementPrêt à vous lancer ?Déployer cette solution en la lançant dans votre console AWS -
Option 3
-
Modèle AWS CloudFormation utilisant Amazon Kinesis Data Streams, Amazon Data Firehose et Amazon S3
Étape 1
Kinesis Data Streams stocke les données de streaming entrantes.Étape 2
Amazon Data Firehose met les données entrantes en mémoire tampon avant de les transférer vers un compartiment S3. C’est un service entièrement géré qui met automatiquement à l’échelle le débit de données et ne nécessite pas d’administration continue.Étape 3
Un tableau de bord CloudWatch contrôle l’ingestion et la mise en mémoire tampon des données. Les alarmes CloudWatch sont définies sur des métriques essentielles pour Data Firehose.À propos de ce déploiementDate de publication- Date de publication
Options de déploiementPrêt à vous lancer ?Déployer cette solution en la lançant dans votre console AWS -
Option 4
-
Modèle AWS CloudFormation utilisant Amazon Kinesis Data Streams, le service géré Amazon pour Apache Flink et Amazon API Gateway
Étape 1
Une instance EC2 utilise KPL pour générer des données.Étape 2
Kinesis Data Streams stocke les données de streaming entrantes.Étape 3
Le service géré pour Apache Flink traite les enregistrements entrants et invoque un point de terminaison externe de manière asynchrone.Étape 4
L'application de démonstration invoque une fonction Lambda.Étape 5
L'API externe peut être toute intégration prise en charge par API Gateway (par exemple, un point de terminaison Amazon SageMaker).Étape 6
Un tableau de bord CloudWatch contrôle l'état de l'application, sa progression, l'utilisation des ressources, les événements et les erreurs.À propos de ce déploiementDate de publication- Date de publication
Options de déploiementPrêt à vous lancer ?Déployer cette solution en la lançant dans votre console AWS
Rubriques connexes
Cet article présente l'architecture permettant d'obtenir une inférence en temps réel sur les données en streaming à l'aide de divers services AWS. Il couvre également l'intégration du service géré Amazon pour Apache Flink afin d'invoquer de manière asynchrone des services ou des bases de données sous-jacents.
Ceci est un cours d'introduction d'Amazon Kinesis Analytics, une solution qui vous permet d'interroger des données de streaming ou de concevoir des applications de streaming complètes avec SQL.
Ce cours d'autoformation porte sur le processus de planification des solutions d'analyse des données et sur les divers processus d'analytique des données connexes.