- Analytique›
- Amazon Redshift›
- Fonctionnalités d'Amazon Redshift
Capacités d’Amazon Redshift
Offrez des performances tarifaires inégalées à l’échelle avec SQL pour votre lakehouse de donnéesPage Topics
Prix, performances, capacité de mise à l’échelle et sécurité exceptionnels Déblocage des informations grâce au SQL sur les données unifiées du lakehouse Prise de décisions plus rapide grâce à l’analytique en temps quasi réel Une analytique SQL simple sans gérer l’infrastructure Contextualisation des applications et augmentation de la productivité des utilisateurs grâce à l’IA générativePrix, performances, capacité de mise à l’échelle et sécurité exceptionnels
Instances RA3
Les instances RA3 optimisent la vitesse des charges de travail à haute performance qui nécessitent une grande capacité de calcul, tout en offrant la possibilité de payer les ressources de calcul séparément du stockage en spécifiant le nombre d’instances dont vous avez besoin.
Stockage efficace et traitement des requêtes à hautes performances
Le stockage en colonnes, la compression de données et le mappage de zones réduisent la quantité d'I/O nécessaires à l'exécution des requêtes. Outre les encodages normalisés tels que LZO et Zstandard, Amazon Redshift propose également un encodage de compression spécifique, AZ64, pour les types numériques et les types de dates et d’heures, afin de réaliser des économies de stockage et d’optimiser les performances des requêtes.
Mise à l'échelle de la simultanéité
Il prend en charge un nombre pratiquement illimité d’utilisateurs simultanés et de requêtes simultanées avec des niveaux de service constants en ajoutant une capacité transitoire en quelques secondes au fur et à mesure de l’augmentation du nombre de requêtes. Mettre à l’échelle avec un impact minimal sur les coûts, car chaque cluster gagne jusqu’à une heure de crédits de dimensionnement simultanés gratuits par jour. Ces crédits gratuits suffisent pour satisfaire les besoins en termes de simultanéité de 97 % des clients.
Un entrepôt des multidonnées écrit grâce au partage de données
Il prend en charge un nombre pratiquement illimité d’utilisateurs simultanés et de requêtes simultanées avec des niveaux de service constants en ajoutant une capacité transitoire en quelques secondes au fur et à mesure de l’augmentation du nombre de requêtes. Mettre à l’échelle avec un impact minimal sur les coûts, car chaque cluster gagne jusqu’à une heure de crédits de dimensionnement simultanés gratuits par jour. Ces crédits gratuits suffisent pour satisfaire les besoins en termes de simultanéité de 97 % des clients.
Vues matérialisées
Les vues matérialisées Amazon Redshift vous permettent d’accélérer considérablement les performances des requêtes pour les charges de travail analytiques itératives ou prévisibles, telles que les tableaux de bord et les requêtes provenant d’outils de veille stratégique (BI) et les tâches de traitement de données par extraction, transformation et chargement (ELT). Vous pouvez utiliser les vues matérialisées pour stocker et gérer les résultats précalculés d’une instruction SELECT qui peut faire référence à une ou plusieurs tables, y compris les tables de lac de données, les tables zéro ETL et les tables de partage de données. Avec l’actualisation incrémentielle, Amazon Redshift identifie les modifications apportées à la ou aux tables de base après l’actualisation précédente. Il ne met à jour que les enregistrements correspondants dans la vue matérialisée. L’actualisation incrémentielle s’exécute plus rapidement qu’une actualisation complète et améliore les performances de la charge de travail.
Mise en cache des résultats
Fournissez des temps de réponse inférieurs à la seconde pour les requêtes répétées. Les outils de tableau de bord, de visualisation et de BI qui exécutent des requêtes répétées bénéficient d’une amélioration significative des performances. Lorsqu'une requête s'exécute, Amazon Redshift recherche dans le cache un éventuel résultat mis en cache d'une exécution précédente. Si un résultat mis en cache est trouvé et que les données n’ont pas changé, le résultat mis en cache est immédiatement renvoyé au lieu de réexécuter la requête.
Dispositions multidimensionnelles des données (MDDL)
Un nouveau mécanisme puissant de tri des tables qui améliore les performances des requêtes répétitives en triant automatiquement les données sur la base des filtres de la requête entrante (par exemple, les ventes dans une région spécifique). Cette méthode accélère considérablement les performances des analyses de tables par rapport aux méthodes traditionnelles.
Fonction multi-AZ
Étendez les capacités de récupération en réduisant le temps de récupération et en garantissant la capacité de récupération automatique sans perte de données. Un entrepôt de données Amazon Redshift Multi-AZ maximise les performances et la valeur en offrant une haute disponibilité sans avoir à utiliser des ressources de secours, élevant votre disponibilité à 99,99 % SLA.
Isolement du réseau
Amazon Redshift vous permet de configurer des règles de pare-feu afin de contrôler l'accès réseau à votre cluster d'entrepôts des données. Vous pouvez exécuter Amazon Redshift au sein d’Amazon Virtual Private Cloud (Amazon VPC) afin d’isoler votre cluster d’entrepôts de données dans votre propre réseau virtuel. Ainsi, vous pouvez connecter votre cluster à votre infrastructure informatique existante à l’aide d’une connexion VPN IPsec cryptée conforme aux normes du secteur.
Chiffrement de bout en bout
Quelques paramètres suffisent pour configurer Amazon Redshift afin qu’il utilise TLS pour sécuriser les données en transit et le chiffrement AES-256 accéléré par le matériel pour les données au repos. Si vous choisissez d’activer le chiffrement des données au repos, toutes les données écrites sur le disque seront chiffrées, ainsi que toutes les sauvegardes. Par défaut, Amazon Redshift prend en charge la gestion des clés.
Identité unifiée grâce à l’intégration d’AWS IAM Identity Center
L’intégration à IAM Identity Center permet aux entreprises de prendre en charge la propagation fiable des identités entre Amazon Redshift, Amazon QuickSight et AWS Lake Formation. Vous pouvez utiliser l’identité de votre organisation pour accéder à Amazon Redshift dans une expérience d’authentification unique à l’aide de fournisseurs d’identité (IdP) tiers, tels que Microsoft Entra ID, Okta, Ping ou OneLogin, à partir de QuickSight et de l’Éditeur de requêtes Amazon Redshift ainsi que d’outils de BI et d’éditeurs SQL tiers. Les administrateurs peuvent faire appel à des utilisateurs et à des groupes IdP tiers pour gérer un accès ultraprécis aux données entre les services et auditer l’accès au niveau utilisateur dans AWS CloudTrail. Grâce à la propagation fiable des identités, l’identité d’un utilisateur est transmise de manière fluide entre QuickSight, Amazon Redshift et Lake Formation, ce qui réduit le temps nécessaire pour obtenir des informations et permet une expérience d’analytique fluide.
Contrôles d'accès granulaires
Des contrôles de sécurité granulaires au niveau des lignes et des colonnes permettent de s’assurer qu’un utilisateur ne voit que les données auxquelles il doit avoir accès. Amazon Redshift est intégré à Lake Formation, assurant que les contrôles d’accès au niveau des colonnes dans Lake Formation sont également appliqués pour les requêtes Amazon Redshift sur les données dans le lac de données. Le partage de données Amazon Redshift prend en charge le contrôle d’accès centralisé avec Lake Formation pour simplifier la gouvernance des données partagées à partir d’Amazon Redshift. Lake Formation est un service qui facilite la mise en place de lacs de données sécurisés, la gestion centralisée de l’accès granulaire aux données à travers tous les services consommateurs et l’application de contrôles au niveau des lignes et des colonnes. Grâce au masquage des données dynamiques, protégez vos données sensibles en limitant la quantité de données identifiables visibles par les utilisateurs. Définissez plusieurs niveaux d’autorisation sur ces champs afin que différents utilisateurs et groupes puissent bénéficier de différents niveaux d’accès aux données sans avoir à créer plusieurs copies des données, le tout via l’interface SQL familière d’Amazon Redshift.
Déblocage des informations grâce au SQL sur les données unifiées du lakehouse
Intégration avec Amazon SageMaker Lakehouse
Analysez toutes vos données unifiées à l’aide de SQL grâce à l’intégration d’Amazon Redshift à SageMaker Lakehouse. Interrogez les données Amazon Simple Storage Service (Amazon S3) dans des formats ouverts, en supprimant les mouvements de données entre les lacs et les entrepôts. Ouvrez vos données Amazon Redshift dans SageMaker Lakehouse pour permettre l’accès aux outils d’analytiques AWS et Apache Iceberg, ce qui permet une analyse complète des données et du machine learning (ML).
Prise en charge des requêtes de lac de données pour les formats de table et de données ouverts, notamment Apache Iceberg
Amazon Redshift prend en charge les requêtes en lecture seule à l’aide du langage SQL ANSI familier sur les formats de table Apache Iceberg, Apache Hudi et Delta Lake, ainsi que les requêtes sur les formats de fichiers ouverts, notamment Apache Parquet, ORC, Avro, JSON et CSV, directement dans Amazon S3. Apache Iceberg est un exemple de format de table open source qui assure une cohérence transactionnelle et une meilleure organisation des lacs de données grâce à sa structure de tables. Amazon Redshift Spectrum vous permet de lire des tables et des données dans des formats de données ouverts tels que Parquet dans votre lac de données, tout en conservant jusqu’à des exaoctets de données structurées, semi-structurées et non structurées dans Amazon S3. Vous pouvez également exporter des données vers votre lac de données à l’aide de la commande Amazon Redshift UNLOAD, y compris l’option d’exportation vers Parquet. L’exportation de données depuis Amazon Redshift vers votre lac de données vous permet de les analyser plus en profondeur à l’aide de services AWS tels qu’Amazon Athena, Amazon EMR et SageMaker.
Éditeur de requêtes Amazon Redshift
Utilisez SQL pour rendre vos données et lac de données Amazon Redshift plus accessibles aux analystes de données, aux ingénieurs de données et à d'autres utilisateurs SQL avec une référence d'analyste sur le Web pour l'exploration et l'analyse des données. L’éditeur de requêtes vous permet de visualiser les résultats des requêtes en une seule étape, de créer des schémas et des tables, de charger visuellement des données et de parcourir les objets de la base de données. Il offre également un éditeur intuitif pour créer et partager des requêtes SQL, des analyses, des visualisations et des annotations et les partager en toute sécurité avec votre équipe.
Amazon SageMaker Unified Studio (version préliminaire)
Utilisez l’éditeur SQL intégré optimisé par Amazon Redshift dans SageMaker Unified Studio, un environnement de développement de données et d’IA unique, pour interroger les données stockées dans des lacs de données, des entrepôts de données, des bases de données et des applications.
Prise de décisions plus rapide grâce à l’analytique en temps quasi réel
Prise en charge de la copie automatique d’Amazon S3
Simplifiez et automatisez l’ingestion de données à partir d’Amazon S3, en réduisant le temps et les efforts nécessaires à la création de solutions personnalisées ou à la gestion de services tiers. Grâce à cette fonctionnalité, Amazon Redshift élimine la nécessité d’exécuter manuellement et à plusieurs reprises des procédures de copie en automatisant l’ingestion de fichiers et en prenant en charge les étapes de chargement continu des données sous le capot. La prise en charge de la copie automatique facilite la tâche des utilisateurs opérationnels et des analystes de données qui n’ont pas de connaissances en ingénierie des données pour créer des règles d’ingestion et configurer l’emplacement des données qu’ils souhaitent charger à partir d’Amazon S3.
Ingestion de flux Amazon Redshift
Utilisez SQL pour vous connecter aux données d’Amazon Kinesis Data Streams et d’Amazon Managed Streaming for Apache Kafka (Amazon MSK) et les ingérer directement. Amazon Redshift Streaming Ingestion facilite également la création et la gestion de pipelines en aval en vous permettant de créer directement des vues matérialisées au-dessus des flux. Les vues matérialisées peuvent également inclure des transformations SQL dans le cadre de votre pipeline ELT. Vous pouvez rafraîchir manuellement les vues matérialisées définies pour interroger les données en continu les plus récentes.
Requête fédérée
Effectuez des requêtes sur des données en direct dans une ou plusieurs instances Amazon RDS, y compris les bases de données Amazon Aurora PostgreSQL-Édition compatible, des bases de données relationnelles Amazon (Amazon RDS) for MySQL et Amazon Aurora MySQL-Édition compatible, afin d’obtenir une visibilité instantanée sur l’ensemble des opérations de l’entreprise sans avoir à déplacer les données.
Une analytique SQL simple sans gérer l’infrastructure
Sans serveur
Exécutez des analytiques en quelques secondes et mettez à l'échelle sans avoir à configurer et à gérer une infrastructure d'entrepôt des données. La technologie de mise à l’échelle et d’optimisation pilotée par l’IA (disponible en avant-première) permet à Amazon Redshift sans serveur de provisionner et de mettre à l’échelle automatiquement et de manière proactive la capacité de l’entrepôt de données, offrant ainsi des performances rapides même pour les charges de travail les plus exigeantes. Le système utilise des techniques d'IA pour apprendre les modèles de charge de travail des clients à travers des dimensions clés, telles que les requêtes simultanées, la complexité des requêtes, l'afflux de volume de données et les modèles ETL. Il ajuste ensuite continuellement les ressources tout au long de la journée et applique des optimisations de performance sur mesure. Vous pouvez définir un objectif de performances souhaité, et l'entrepôt des données se met à l'échelle automatiquement pour maintenir des performances constantes.
Autonomiques
Des algorithmes sophistiqués prédisent et classent les requêtes entrantes en fonction de leur durée d’exécution et de leurs besoins en ressources afin de gérer dynamiquement les performances et la concurrence, tout en vous aidant à hiérarchiser vos charges de travail critiques. L'accélération des requêtes courtes (SQA) envoie les requêtes courtes des applications telles que des tableaux de bord vers une file d'attente express pour un traitement immédiat plutôt que de les bloquer derrière des requêtes longues. La gestion automatique des charges de travail (WLM) utilise le ML pour gérer de manière dynamique la mémoire et la simultanéité, ce qui permet d’optimiser le débit des requêtes. En outre, vous pouvez désormais définir la priorité de vos requêtes les plus importantes, même lorsque des centaines de requêtes sont soumises. Amazon Redshift Advisor émet des recommandations lorsqu’une action explicite de l’utilisateur est nécessaire pour améliorer les performances d’Amazon Redshift. Pour les charges de travail dynamiques où les modèles de requête ne sont pas prévisibles, les vues matérialisées automatisées améliorent le débit des requêtes, réduisent la latence des requêtes et raccourcissent le temps d’exécution grâce au rafraîchissement automatique, à la réécriture automatique des requêtes, au rafraîchissement incrémentiel et à la surveillance continue des clusters Amazon Redshift. L’optimisation automatique des tables sélectionne les clés de tri et de distribution afin d’optimiser les performances en fonction de la charge de travail du cluster. Si Amazon Redshift détermine que l'application d'une clé peut améliorer les performances du cluster, les tables sont automatiquement modifiées sans que l'administrateur ait à intervenir. Les fonctionnalités supplémentaires de suppression automatique du vide, de tri automatique des tables et d’analytique automatique excluent la nécessité d’une maintenance et d’un réglage manuels des clusters Amazon Redshift afin d’obtenir les meilleures performances pour les nouveaux clusters et les charges de travail de production.
API de données
Utilisez une API simple pour interagir avec Amazon Redshift : Amazon Redshift vous permet d’accéder sans problème aux données avec tous les types d’applications classiques, natives cloud et conteneurisées, basées sur des services Web sans serveur et axées sur les événements. L’API Amazon Redshift Data simplifie l’accès, l’ingestion et la sortie des données à partir des langages de programmation et des plateformes pris en charge par le SDK AWS, tels que Python, Go, Java, Node.js, PHP, Ruby et C++. L’API de données ne nécessite pas de configurer des pilotes ni de gérer des connexions à des bases de données. Vous pouvez plutôt exécuter des commandes SQL sur un cluster Amazon Redshift pour appeler un point de terminaison d’API sécurisé fourni par l’API de données. L'API Data prend en charge la gestion des connexions à la base de données et la mise en mémoire tampon des données. L'API Data est asynchrone ; vous pouvez donc récupérer les résultats plus tard. Les résultats de votre requête sont hébergés durant 24 heures.
Intégration avec des outils ETL et BI tiers
Exécutez des requêtes dans la console ou connectez des outils clients SQL, des bibliothèques ou des outils de science des données, notamment QuickSight, Tableau, Microsoft Power BI, Alteryx, Querybook, bloc-notes Jupyter, Informatica, dbt, MicroStrategy et Looker.
Contextualisation des applications et augmentation de la productivité des utilisateurs grâce à l’IA générative
SQL génératif Amazon Q dans l'éditeur de requêtes
Utilisez un anglais simple pour écrire des requêtes dans l’Éditeur de requêtes Amazon Redshift afin de générer en toute sécurité des recommandations de code SQL précises dans le cadre de vos autorisations d’accès aux données.
Amazon Redshift ML
Amazon Redshift ML permet aux analystes de données, aux scientifiques des données, aux professionnels de la BI et aux développeurs de créer, d’entraîner et de déployer des modèles SageMaker à l’aide de SQL. Avec Amazon Redshift ML, vous pouvez utiliser des instructions SQL pour créer et entraîner des modèles SageMaker sur vos données dans Amazon Redshift, puis utiliser ces modèles pour des prédictions telles que la détection de désabonnement, les prévisions financières, la personnalisation et l’évaluation des risques directement dans vos requêtes et rapports. Introduisez de grands modèles de langage dans Amazon Redshift pour des tâches avancées de traitement du langage naturel telles que le résumé de texte, l’extraction d’entités et l’analyse de sentiments, afin d’obtenir des informations plus approfondies sur vos données à l’aide de SQL.