Amazon Redshift 기능

데이터 레이크하우스용 SQL을 사용하여 대규모로 비교 불가능한 가격 대비 성능을 제공

탁월한 가격 대비 성능, 확장성 및 보안 달성

RA3 인스턴스는 대량의 컴퓨팅 파워가 요구되는 성능 집약적 워크로드의 속도를 극대화하고, 필요한 인스턴스 수를 지정하여 스토리지와 별도로 컴퓨팅 리소스에 대해 비용을 지불할 수 있는 유연성을 제공합니다.

열 기반 스토리지, 데이터 압축 및 영역 매핑은 쿼리 수행에 필요한 I/O 수를 줄입니다. Amazon Redshift는 LZO 및 Zstandard와 같은 업계 표준과 함께, 숫자 및 날짜/시간 유형을 위해 특별히 고안된 압축 인코딩 AZ64도 제공하여 스토리지를 절약하고 쿼리 성능을 최적화할 수 있도록 합니다.

동시성이 증가할 때 초 단위로 임시 용량을 추가하여 일관된 서비스 수준을 유지하며 동시 사용자 및 동시 쿼리를 사실상 무제한으로 지원합니다. 각 클러스터가 하루 최대 1시간의 무료 동시성 확장 크레딧을 제공하므로 비용에 미치는 영향을 최소화하면서 확장할 수 있습니다. 이러한 무료 크레딧은 97%의 고객에게 발생하는 동시성 요구를 충족하는 데 충분한 수준입니다.

동시성이 증가할 때 초 단위로 임시 용량을 추가하여 일관된 서비스 수준을 유지하며 동시 사용자 및 동시 쿼리를 사실상 무제한으로 지원합니다. 각 클러스터가 하루 최대 1시간의 무료 동시성 확장 크레딧을 제공하므로 비용에 미치는 영향을 최소화하면서 확장할 수 있습니다. 이러한 무료 크레딧은 97%의 고객에게 발생하는 동시성 요구를 충족하는 데 충분한 수준입니다.

Amazon Redshift의 구체화된 뷰를 사용하면 대시보드, 비즈니스 인텔리전스(BI) 도구의 ELT 데이터 처리 작업과 같은 반복적이거나 예측 가능한 분석 워크로드에 대해 훨씬 빠른 쿼리 성능을 얻을 수 있습니다. 구체화된 뷰를 사용하면 데이터 레이크, 제로 ETL. 데이터 공유 테이블을 포함한 하나 이상의 테이블을 참조할 수 있는 SELECT 문의 미리 계산된 결과를 손쉽게 저장하고 관리할 수 있습니다. Amazon Redshift는 증분 새로 고침을 통해 이전 새로 고침 이후에 발생한 기본 테이블 또는 테이블의 변경 사항을 식별하고 구체화된 뷰에서 해당 레코드만 업데이트합니다. 증분 새로 고침은 전체 새로 고침보다 빠르게 실행되므로 워크로드 성능이 개선됩니다.

반복 쿼리에 대해 1초 미만의 응답 시간을 제공합니다. 반복 쿼리를 실행하는 대시보드, 시각화 및 BI 도구에서 상당한 성능 향상을 경험합니다. 쿼리가 실행될 때, Amazon Redshift는 캐시를 검색하여 이전 실행으로부터 캐시된 결과가 있는지 확인합니다. 캐시된 결과가 발견되고 데이터가 변경되지 않은 경우 쿼리를 재실행하는 대신 캐시된 결과가 즉시 반환됩니다.

수신 쿼리 필터(예: 특정 지역의 매출)를 기반으로 데이터를 자동으로 정렬하여 반복 쿼리의 성능을 개선하는 새롭고 강력한 테이블 정렬 메커니즘입니다. 이 방법은 기존 방법에 비해 테이블 스캔의 성능을 크게 개선합니다.

복구 시간을 줄이고 데이터 손실 없이 자동으로 복구할 수 있는 용량을 보장하여 복구 기능을 더욱 확장합니다. Amazon Redshift 다중 AZ 데이터 웨어하우스는 스탠바이 리소스를 사용하지 않고도 고가용성을 제공하고 가용성을 99.99% SLA로 높여 성능과 가치를 극대화합니다.

Amazon Redshift를 사용하면 데이터 웨어하우스 클러스터에 대한 네트워크 액세스를 제어하도록 방화벽 규칙을 구성할 수 있습니다. 자체 가상 네트워크에 있는 데이터 웨어하우스 클러스터를 격리하고 업계 표준의 암호화된 IPsec VPN을 사용하여 기존 IT 인프라에 연결하기 위해 Amazon Virtual Private Cloud(Amazon VPC) 내에서 Amazon Redshift를 실행할 수 있습니다.

파라미터 몇 개만 설정하여 TLS로 전송 중 데이터를 보호하고 하드웨어 가속 AES-256 암호화로 저장 데이터를 보호하도록 Amazon Redshift를 설정할 수 있습니다. 저장 데이터의 암호화를 활성화하도록 선택하면 백업과 함께 디스크에 작성된 모든 데이터가 암호화됩니다. Amazon Redshift는 기본적으로 키 관리를 담당합니다.

IAM Identity Center 통합을 수행하면 신뢰할 수 있는 ID를 Amazon Redshift, Amazon QuickSight, AWS Lake Formation 간에 전파할 수 있습니다. QuickSight 및 Amazon Redshift Query Editor, 서드 파티 BI 도구 및 SQL 편집기에서 Microsoft Entra ID, Okta, Ping, OneLogin과 같은 서드 파티 ID 제공업체(IdP)를 사용하는 Single Sign-On 환경에서 조직의 자격 증명으로 Amazon Redshift에 액세스할 수 있습니다. 관리자는 서드 파티 IdP 사용자 및 그룹을 사용하여 서비스 전반의 데이터에 대한 세분화된 액세스를 관리하고 AWS CloudTrail에서 사용자 수준 액세스 감사를 시행할 수 있습니다. 신뢰할 수 있는 ID 전파를 사용하면 사용자 ID가 QuickSight, Amazon Redshift, Lake Formation 간에 원활하게 전달되므로 인사이트 확보 시간이 단축되고 마찰 없이 분석을 수행할 수 있습니다.

행 및 열 수준의 세분화된 보안 제어를 통해 액세스 권한이 사용자에게만 데이터를 표시할 수 있습니다. Amazon Redshift는 Lake Formation과 통합되어 Lake Formation의 열 수준 액세스 제어가 데이터 레이크에 있는 데이터에 대한 Amazon Redshift 쿼리에도 적용되도록 합니다. Amazon Redshift 데이터 공유는 Lake Formation을 통한 중앙 집중식 액세스 제어를 지원하여 Amazon Redshift에서 공유되는 데이터의 거버넌스를 간소화합니다. Lake Formation을 사용하면 보다 쉽게 안전한 데이터 레이크를 설정하고, 모든 소비 서비스에서 데이터에 대한 세분화된 액세스를 중앙에서 관리하고, 행 수준 및 열 수준 제어를 적용할 수 있습니다. 동적 데이터 마스킹을 사용하면 사용자에게 표시되는 식별 가능한 데이터의 양을 제한하여 민감한 데이터를 보호할 수 있습니다. 이러한 필드에 여러 수준의 권한을 정의하면 여러 사용자 및 그룹이 데이터 복사본을 여러 개 생성할 필요 없이 Amazon Redshift의 친숙한 SQL 인터페이스를 통해 다양한 수준에서 데이터에 액세스할 수 있습니다.

레이크하우스의 통합 데이터 전반에서 SQL을 사용하여 인사이트 확보

Amazon Redshift와 SageMaker Lakehouse의 통합을 통해 SQL을 사용하여 모든 통합 데이터를 분석할 수 있습니다. 오픈 소스 형식으로 Amazon Simple Storage Service(Amazon S3) 데이터를 쿼리하여 레이크와 웨어하우스 간의 데이터 이동이 필요하지 않습니다. SageMaker Lakehouse에서 Amazon Redshift 데이터를 열면 포괄적인 데이터 분석 및 기계 학습(ML)을 지원하는 AWS 및 Apache Iceberg 분석 도구에서 액세스할 수 있습니다.

Amazon Redshift는 Apache Iceberg, Apache Hudi 및 Delta Lake 테이블 형식에서 친숙한 ANSI SQL을 사용한 읽기 전용 쿼리와 Amazon S3에서 Apache Parquet, ORC, Avro, JSON, CSV를 비롯한 오픈 소스 파일 형식의 직접 쿼리를 지원합니다. Apache Iceberg는 테이블 구조를 통해 트랜잭션 일관성과 향상된 데이터 레이크 구성을 제공하는 오픈 소스 테이블 형식의 예입니다. Amazon Redshift Spectrum을 사용하면 Amazon S3에 최대 엑사바이트 규모의 정형, 반정형 및 비정형 데이터를 유지하면서 데이터 레이크에 있는 Parquet과 같은 오픈 소스 데이터 형식의 테이블 및 데이터를 읽을 수 있습니다. 또한 Amazon Redshift UNLOAD 명령을 사용하여 Parquet으로 내보내기 옵션을 포함해 데이터를 데이터 레이크로 내보낼 수 있습니다. 데이터를 Amazon Redshift에서 데이터 레이크로 다시 내보내면 Amazon Athena, Amazon EMR, SageMaker와 같은 AWS 서비스를 활용해 데이터를 보다 면밀하게 분석할 수 있습니다.

SQL을 사용하면 데이터 탐색 및 분석을 위한 웹 기반 분석 워크벤치를 통해 데이터 분석가, 데이터 엔지니어 및 기타 SQL 사용자가 Amazon Redshift 데이터 및 데이터 레이크에 더 쉽게 액세스할 수 있습니다. Query Editor를 사용하면 단일 단계로 쿼리 결과를 시각화하고, 스키마와 테이블을 생성하고, 시각적으로 데이터를 로드하고, 데이터베이스 객체를 탐색할 수 있습니다. 또한 SQL 쿼리, 분석, 시각화 및 주석을 작성하고 팀과 안전하게 공유할 수 있는 직관적인 에디터를 제공합니다.

단일 데이터 및 AI 개발 환경인 SageMaker Unified Studio에서 Amazon Redshift로 구동되는 내장 SQL 편집기를 사용하여 데이터 레이크, 데이터 웨어하우스, 데이터베이스, 애플리케이션에 저장된 데이터를 쿼리할 수 있습니다.

실시간에 가까운 분석을 통해 의사 결정을 가속화

Aurora, Amazon Relational Database Service(Amazon RDS), Amazon DynamoDB, 엔터프라이즈 애플리케이션, Amazon Redshift를 노코드로 통합하여 데이터베이스 및 애플리케이션 전반에서 페타바이트 규모의 데이터를 즉시 분석하고 ML을 수행할 수 있습니다. 예를 들어 운영, 트랜잭션 또는 엔터프라이즈 애플리케이션 소스에 기록된 데이터의 경우 Amazon Redshift와 Aurora 제로 ETL 통합을 구현하면 Amazon Redshift에서 데이터를 원활하게 사용할 수 있으므로 복잡한 ETL 데이터 파이프라인을 구축하고 유지 관리할 필요가 최소화됩니다.

Amazon S3에서 데이터 수집을 단순화하고 자동화하여 사용자 지정 솔루션을 구축하거나 서드 파티 서비스를 관리하는 데 드는 시간과 노력을 줄여줍니다. 이 기능을 통해 Amazon Redshift는 파일 수집을 자동화하고 내부에서 지속적인 데이터 로딩 단계를 처리하여 수동으로 반복적으로 복사 절차를 실행할 필요가 없습니다. 자동 복사 지원을 통해 데이터 엔지니어링 지식이 없는 비즈니스 사용자와 데이터 분석가도 수집 규칙을 생성하고 Amazon S3에서 로드하려는 데이터의 위치를 구성할 수 있습니다.

SQL을 사용하여 Amazon Kinesis Data Streams 및 Amazon Managed Streaming for Apache Kafka(Amazon MSK)에 연결하고 데이터를 직접 수집할 수 있습니다. 또한 Amazon Redshift Streaming Incutation을 사용하면 스트림 위에 구체화된 뷰를 직접 생성할 수 있으므로 다운스트림 파이프라인을 쉽게 생성하고 관리할 수 있습니다. 구체화된 뷰에 SQL 변환이 ELT 파이프라인의 일부로 포함될 수도 있습니다. 정의된 구체화된 뷰를 수동으로 새로 고쳐 최신 스트리밍 데이터를 쿼리할 수 있습니다.

Amazon Aurora PostgreSQL 호환 에디션, Amazon Relational Database(Amazon RDS) for MySQL, Amazon Aurora MySQL 호환 에디션 데이터베이스를 비롯한 하나 이상의 Amazon RDS 인스턴스에서 라이브 데이터를 쿼리하여 데이터를 이동할 필요 없이 전체 비즈니스 운영을 즉시 파악할 수 있습니다.

인프라를 관리하지 않고도 손쉽게 SQL 분석을 수행

데이터 웨어하우스 인프라를 설정하고 관리할 필요 없이 몇 초 만에 분석을 실행하고 확장할 수 있습니다. AI 기반 확장 및 최적화 기술(평가판으로 제공)을 통해 Amazon Redshift Serverless는 데이터 웨어하우스 용량을 사전에 자동으로 프로비저닝하고 조정하여 가장 까다로운 워크로드에도 빠른 성능을 제공할 수 있습니다. 이 시스템은 AI 기술을 사용하여 동시 쿼리, 쿼리 복잡성, 데이터 볼륨 유입, ETL 패턴 등 주요 차원에서 고객 워크로드 패턴을 학습합니다. 그런 다음 하루 종일 리소스를 지속적으로 조정하고 맞춤형 성능 최적화를 적용합니다. 원하는 성능 목표를 설정할 수 있으며, 데이터 웨어하우스의 자동 조정을 통해 일관된 성능이 유지됩니다.

정교한 알고리즘을 활용하여 런타임 및 리소스 요구 사항에 따라 수신 쿼리를 예측하고 분류하여 성능과 동시성을 동적으로 관리하고 비즈니스 크리티컬 워크로드의 우선순위를 지정합니다. 단기 쿼리 가속화(SQA)는 대시보드와 같은 애플리케이션의 단기 쿼리가 대량 쿼리 뒤에 남아 있게 하는 대신, 단기 쿼리를 빠른 대기열로 보내 중간에 처리되도록 합니다. 자동 워크로드 관리(WLM)는 ML을 사용하여 메모리 및 동시성을 동적으로 관리함으로써 쿼리 처리량을 극대화합니다. 또한 제출하는 쿼리가 수백 개에 달하더라도, 이제는 그중에서 가장 중요한 쿼리의 우선순위를 지정할 수 있습니다. Amazon Redshift Advisor는 Amazon Redshift 성능을 추가로 강화하기 위해 명시적인 사용자 작업이 필요한 경우 권장 사항을 제공합니다. 쿼리 패턴을 예측할 수 없는 동적 워크로드의 경우 자동 구체화된 뷰로 Amazon Redshift 클러스터에 대한 자동 새로 고침, 자동 쿼리 재작성, 증분 새로 고침 및 지속적 모니터링을 통해 쿼리 처리량을 개선하고 쿼리 지연 시간을 줄이며 실행 시간을 단축할 수 있습니다. 자동 테이블 최적화는 정렬 및 분산 키를 선택하여 클러스터의 워크로드에 대한 성능을 최적화합니다. Amazon Redshift에서 키 적용으로 클러스터 성능이 향상된다고 판단하면 관리자 개입 없이 테이블이 자동으로 변경됩니다. 자동 진공 삭제, 자동 테이블 정렬, 자동 분석과 같은 추가 기능을 사용하면 Amazon Redshift 클러스터를 수동으로 유지 관리하고 조정하지 않아도 되므로 새로운 클러스터 및 프로덕션 워크로드에 대해 최고의 성능을 얻을 수 있습니다.

단순한 API를 사용하여 Amazon Redshift와 상호 작용: 모든 유형의 기존, 클라우드 네이티브 및 컨테이너식 서버리스 웹 서비스 기반 및 이벤트 기반 애플리케이션에서 Amazon Redshift의 데이터에 액세스할 수 있습니다. Amazon Redshift 데이터 API는 Python, Go, Java, Node.js, PHP, Ruby 및 C++ 등 AWS SDK로 지원되는 프로그래밍 언어 및 플랫폼에서의 데이터 액세스, 수집 및 송신을 간소화합니다. 이 데이터 API를 사용하면 드라이버를 구성하고 데이터베이스 연결을 관리할 필요가 없습니다. 대신, 데이터 API에서 제공하는 보안 API 엔드포인트를 직접적으로 호출하여 Amazon Redshift 클러스터에 대해 SQL 명령을 실행할 수 있습니다. 데이터베이스 연결 관리와 데이터 버퍼링은 데이터 API에서 처리합니다. 데이터 API는 비동기식이므로, 나중에 결과를 검색할 수 있습니다. 쿼리 결과는 24시간 동안 저장됩니다.

콘솔 내에서 쿼리를 실행하거나 QuickSight, Tableau, Microsoft Power BI, Alteryx, Querybook, Jupyter Notebook, Informatica, dbt, MicroStrategy, Looker를 비롯한 SQL 클라이언트 도구, 라이브러리 또는 데이터 과학 도구를 연결할 수 있습니다.

생성형 AI로 애플리케이션 컨텍스트화하고 사용자 생산성을 향상

Amazon Redshift Query Editor에서 데이터 액세스 권한 범위 내에서 정확한 SQL 코드 권장 사항을 안전하게 생성하는 쿼리를 작성할 때 일반 영어를 사용합니다.

Amazon Redshift는 Amazon Bedrock과 원활하게 통합되므로 표준 SQL 명령을 통해 직접 생성형 AI 기능을 사용할 수 있습니다. 이러한 통합을 통해 데이터 팀은 추가적인 인프라 복잡성 없이 Anthropic Claude, Amazon Titan과 같은 파운데이션 모델을 텍스트 분석, 번역, 감정 탐지 등의 태스크에 사용할 수 있습니다. 사용자는 기존 데이터 분석 워크플로 내에서 AI 모델을 원활하게 간접적으로 호출하여 엔터프라이즈 데이터에서 인사이트를 추출하는 방식을 혁신할 수 있습니다.

Amazon Redshift ML을 사용하면 데이터 분석가, 데이터 과학자, BI 전문가, 개발자들은 SQL을 사용하여 SageMaker 모델을 쉽게 생성하고 훈련하며 배포할 수 있습니다. Amazon Redshift ML을 통해 Redshift에서 SQL 문을 사용하여 데이터에 대한 Amazon SageMaker 모델을 생성하고 훈련한 후, 쿼리 및 보고서에서 직접 이탈 탐지, 재무 예측, 개인화 및 위험 점수 지정과 같은 예측에 이러한 모델을 사용할 수 있습니다. 텍스트 요약, 엔터티 추출, 감정 분석과 같은 고급 자연어 처리 작업을 위해 대규모 언어 모델을 Amazon Redshift로 가져와 SQL을 사용하여 데이터에서 심층적인 인사이트를 얻을 수 있습니다.