- Analitik›
- Amazon Redshift›
- FAQ Amazon Redshift
FAQ Amazon Redshift
Umum
Apa itu Amazon RedShift?
Puluhan ribu pelanggan menggunakan Amazon Redshift setiap hari untuk menjalankan analitik SQL di cloud, memproses sejumlah eksabita data untuk wawasan bisnis. Baik data pertumbuhan Anda disimpan di penyimpanan data operasional, danau data, layanan streaming data, atau set data pihak ketiga, Amazon Redshift membantu Anda dengan aman mengakses, menggabungkan, dan berbagi data dengan lebih sedikit perpindahan atau menyalin. Amazon Redshift sangat terintegrasi dengan basis data AWS, analitik, dan layanan machine learning untuk menggunakan pendekatan Zero-ETL atau membantu Anda mengakses data di tempat untuk analitik mendekati waktu nyata, membuat model machine learning di SQL, dan mengaktifkan analitik Apache Spark menggunakan data di Redshift. Amazon Redshift Nirserver memungkinkan teknisi, developer, ilmuwan data, dan analis Anda untuk memulai lebih mudah dan menskalakan analitik lebih cepat di lingkungan tanpa administrasi. Dengan mesin Pemrosesan Paralel Masif (MPP) dan arsitekturnya yang memisahkan komputasi dan penyimpanan untuk penskalaan yang efisien, dan inovasi performa berbasis machine learning (misalnya: AutoMaterialized Views), Amazon Redshift dibuat untuk menskalakan dan memberikan performa harga 5x lebih baik daripada gudang data cloud lainnya.
Apa alasan utama pelanggan memilih Amazon Redshift?
Ribuan pelanggan memilih Amazon Redshift untuk mempercepat waktu mereka mendapatkan wawasan karena Amazon Redshift adalah sistem analitik hebat yang berintegrasi dengan basis data dan layanan machine learning dengan baik, efisien saat digunakan, dan dapat menjadi layanan pusat untuk mengirimkan semua keperluan analitik mereka. Amazon Redshift Nirserver secara otomatis menyediakan dan menskalakan kapasitas gudang data untuk memberikan performa tinggi untuk beban kerja yang berat dan tidak terprediksi. Amazon Redshift menawarkan performa harga terdepan untuk beban kerja analitik yang beragam, baik itu pembuatan dasbor, pengembangan aplikasi, berbagi data, pekerjaan ETL (Extract, Transform, Load) atau lainnya. Dengan puluhan ribu pelanggan menjalankan analitik dalam terabita ke petabita data, Amazon Redshift mengoptimalkan performa beban kerja nyata pelanggan, berdasarkan telemetri performa armada, dan memberikan performa yang dapat mengukur beban kerja secara linear, namun tetap menjaga biaya tetap rendah. Inovasi performa tersedia untuk pelanggan tanpa biaya tambahan. Amazon Redshift memungkinkan Anda mendapatkan wawasan dari menjalankan analitik prediktif dan waktu nyata pada semua data Anda di seluruh basis data operasional, danau data, gudang data, data streaming data, dan set data pihak ketiga. Amazon Redshift mendukung keamanan yang terkemuka di industri dengan manajemen dan federasi identitas untuk masuk tunggal (SSO), autentikasi multi-faktor, kontrol akses tingkat kolom, keamanan tingkat baris, kontrol akses berbasis peran, Amazon Virtual Private Cloud (Amazon VPC), dan pengukuran ulang klaster yang lebih cepat.
Bagaimana cara Amazon Redshift menyederhanakan manajemen gudang data dan analitik?
Amazon Redshift dikelola penuh oleh AWS sehingga Anda tidak perlu lagi khawatir tentang tugas-tugas manajemen gudang data seperti penyediaan perangkat keras, patching perangkat lunak, pengaturan, konfigurasi, simpul pemantauan, dan drive untuk pemulihan dari kegagalan, atau cadangan. AWS mengelola pekerjaan yang diperlukan untuk menyiapkan, mengoperasikan, dan menskalakan gudang data mewakili Anda, membebaskan Anda untuk fokus membangun aplikasi Anda. Amazon Redshift Nirserver secara otomatis menyediakan dan menskalakan kapasitas gudang data untuk memberikan performa tinggi untuk beban kerja yang berat dan tidak terprediksi, dan Anda hanya membayar untuk sumber daya yang Anda gunakan. Amazon Redshift juga memiliki kemampuan penyetelan otomatis, dan memberikan rekomendasi untuk mengelola gudang data Anda di Redshift Advisor. Dengan Redshift Spectrum, Amazon Redshift mengelola semua infrastruktur komputasi, penyeimbangan beban, perencanaan, penjadwalan, dan eksekusi kueri Anda pada data yang disimpan di Amazon S3. Amazon Redshift memungkinkan analitik semua data Anda dengan integrasi mendalam ke layanan basis data dengan fitur seperti Zero-ETL Amazon Aurora ke Amazon Redshift dan menggabungkan kueri untuk mengakses data di tempat dari basis data operasional seperti Amazon RDS dan danau data Amazon S3 Anda. Redshift memungkinkan penyerapan data yang efisien tanpa kode, pipeline data otomatis yang menyerap data streaming atau file Amazon S3 secara otomatis. Redshift juga terintegrasi dengan AWS Data Exchange yang memungkinkan pengguna untuk menemukan, berlangganan, dan membuat set data kueri pihak ketiga serta menggabungkan data tersebut untuk wawasan yang komprehensif. Dengan integrasi asli ke Amazon SageMaker, pelanggan dapat tetap dalam gudang data mereka dan membuat, melatih, dan membangun model machine learning di SQL. Amazon Redshift mengirimkan semua kebutuhan analitik SQL Anda dengan performa harga 5x lebih baik daripada gudang data cloud lainnya.
Apa saja opsi deployment untuk Amazon Redshift?
Amazon Redshift adalah layanan terkelola penuh dan menawarkan opsi yang tersedia dan nirserver, membuat Anda lebih efisien dalam menjalankan dan menskalakan analitik tanpa harus mengelola gudang data Anda. Anda dapat menjalankan titik akhir Amazon Redshift Nirserver baru untuk menyediakan gudang data secara otomatis dalam hitungan detik atau Anda dapat memilih opsi yang tersedia untuk beban kerja yang dapat diperkirakan.
Bagaimana cara memulai Amazon Redshift?
Hanya dengan beberapa langkah di Konsol Manajemen AWS, Anda dapat mulai mengkueri data. Anda dapat memanfaatkan contoh set data yang telah dimuat, termasuk set data tolok ukur TPC-H, TPC-DS, dan contoh kueri lainnya untuk segera memulai analitik. Untuk memulai dengan Amazon Redshift Nirserver, pilih “Coba Amazon Redshift Nirserver” dan mulai mengkueri data. Mulai di sini.
Bagaimana performa Amazon Redshift dibandingkan dengan gudang data lain?
Hasil tolok ukur TPC-DS menunjukkan bahwa Amazon Redshift memberikan performa harga terbaik, bahkan untuk set data 3 TB yang relatif kecil. Amazon Redshift memberikan performa harga hingga 5x lebih baik daripada gudang data cloud lainnya. Ini artinya Anda dapat memanfaatkan performa harga terdepan Amazon Redshift dari awal tanpa penyetelan manual. Berdasarkan performa telemetri armada, kami juga mengetahui bahwa kebanyakan beban kerja adalah beban kerja kueri pendek (beban kerja yang berjalan kurang dari 1 detik). Untuk beban kerja tersebut, tolok ukur terbaru menunjukkan bahwa Amazon Redshift menawarkan hingga 7x performa harga yang lebih baik dalam beban kerja latensi rendah dan konkurensi tinggi daripada gudang data lainnya. Pelajari selengkapnya di sini.
Apakah saya bisa mendapatkan bantuan untuk mempelajari selengkapnya dan mengadopsi Amazon Redshift?
Ya, spesialis Amazon Redshift hadir untuk menjawab pertanyaan dan memberikan dukungan. Hubungi kami dan Anda akan mendapatkan respons kami dalam satu hari kerja untuk mendiskusikan cara AWS dapat membantu organisasi Anda.
Apa itu penyimpanan terkelola Amazon Redshift?
Penyimpanan terkelola Amazon Redshift tersedia dengan jenis simpul RA3 nirserver dan memungkinkan Anda menskalakan serta membayar komputasi juga penyimpanan secara independen sehingga Anda dapat mengatur besar klaster hanya berdasarkan kebutuhan komputasi. Penyimpanan ini secara otomatis menggunakan penyimpanan lokal berkinerja tinggi berbasis SSD sebagai cache tingkat 1 dan memanfaatkan optimasi seperti temperatur blok data, usia blok data, dan pola beban kerja untuk memberikan kinerja yang tinggi seraya menskalakan penyimpanan secara otomatis ke Amazon S3 saat diperlukan tanpa memerlukan tindakan apa pun.
Bagaimana cara menggunakan penyimpanan terkelola Amazon Redshift?
Jika Anda telah menggunakan simpul Dense Storage atau Dense Compute Amazon Redshift, Anda dapat menggunakan Elastic Resize untuk meningkatkan klaster Anda ke instans komputasi RA3 yang baru. Amazon Redshift Nirserver dan klaster yang menggunakan instans RA3 otomatis menggunakan penyimpanan terkelola Redshift untuk menyimpan data. Tidak diperlukan tindakan lain selain menggunakan Amazon Redshift Nirserver atau instans RA3 untuk menggunakan kemampuan ini.
Bagaimana saya dapat menjalankan kueri dari Redshift untuk data yang tersimpan di Danau Data AWS?
Amazon Redshift Spectrum adalah fitur Amazon Redshift yang memungkinkan Anda menjalankan kueri terhadap danau data di Amazon S3, tanpa memerlukan pemuatan data atau ETL. Ketika Anda menerbitkan kueri SQL, kueri menuju ke titik akhir Amazon Redshift, yang menghasilkan dan mengoptimalkan rencana kueri. Amazon Redshift menentukan data apa yang lokal dan apa yang ada di Amazon S3, membuat rencana untuk meminimalkan jumlah data S3 yang harus dibaca, meminta pekerja Amazon Redshift Spectrum dari kumpulan sumber daya yang dibagikan untuk membaca dan memproses data dari Amazon S3.
Kapan saya sebaiknya mempertimbangkan untuk menggunakan instans RA3?
Pertimbangkan untuk memilih tipe simpul RA3 dalam kasus-kasus berikut:
- Anda memerlukan fleksibilitas untuk menskalakan dan membayar komputasi terpisah dari penyimpanan.
- Anda mengkueri sebagian total data Anda.
- Volume data Anda cepat tumbuh atau diperkirakan akan tumbuh dengan cepat.
- Anda menginginkan fleksibilitas untuk mengubah ukuran klaster hanya berdasarkan kebutuhan performa Anda.
Seiring dengan pertumbuhan skala data yang mencapai hingga petabita, jumlah data yang Anda serap ke dalam gudang data Amazon Redshift juga bertumbuh. Anda mungkin mencari cara untuk menganalisis semua data Anda dengan biaya yang efektif.
Dengan instans RA3 Amazon Redshift dengan penyimpanan terkelola, Anda dapat memilih jumlah simpul berdasarkan persyaratan performa Anda, dan hanya membayar untuk penyimpanan terkelola yang Anda gunakan. Ini memberikan Anda fleksibilitas untuk mengatur ukuran klaster RA3 Anda berdasarkan jumlah data yang Anda proses setiap harinya tanpa meningkatkan biaya penyimpanan Anda. Dibangun di AWS Nitro System, instans RA3 dengan penyimpanan terkelola menggunakan SSD performa tinggi untuk data panas Anda dan Amazon S3 untuk data dingin Anda, memberikan kemudahan penggunaan, penyimpanan hemat biaya, dan performa kueri cepat.
Fitur apa yang dapat saya gunakan untuk analitik berbasis lokasi?
Amazon Redshift spasial menyediakan analitik berbasis lokasi untuk wawasan kaya ke dalam data Anda. Ini dengan mulus mengintegrasikan data spasial dan bisnis untuk menyediakan analitik untuk pengambilan keputusan. Amazon Redshift meluncurkan dukungan pemrosesan data spasial pada November 2019, dengan jenis data polimorfik GEOMETRY dan beberapa fungsi spasial SQL kunci. Kami sekarang mendukung jenis data GEOGRAPHY, dan pustaka fungsi spasial SQL kami telah tumbuh menjadi 80. Kami mendukung semua tipe dan standar data spasial umum, termasuk Shapefiles, GeoJSON, WKT, WKB, eWKT, dan eWKB. Untuk mempelajari selengkapnya, kunjungi halaman dokumentasi atau halaman tutorial spasial Amazon Redshift.
Bagaimana perbandingan dukungan SQL Athena dengan Redshift, dan bagaimana saya memilih antara kedua layanan tersebut?
Amazon Athena dan Amazon Redshift Nirserver menangani kebutuhan dan kasus penggunaan yang berbeda meskipun kedua layanan tersebut nirserver dan memungkinkan pengguna SQL.
Dengan arsitektur Pemrosesan Paralel Masif (MPP) yang memisahkan penyimpanan dan komputasi dan kemampuan optimasi otomatis yang diarahkan oleh machine learning, gudang data seperti Amazon Redshift, baik nirserver maupun disediakan, adalah pilihan terbaik untuk pelanggan yang membutuhkan performa harga terbaik dalam skala apa pun untuk BI kompleks dan beban kerja analitik. Pelanggan dapat menggunakan Amazon Redshift sebagai komponen pusat dari arsitektur data dengan integrasi mendalam yang tersedia untuk mengakses data di tempat atau menyerap atau memindahkan data dengan mudah ke gudang untuk analitik performa tinggi, melalui metode ZeroETL dan tanpa kode. Pelanggan dapat mengakses data yang tersimpan di Amazon S3, basis data operasional seperti Aurora dan Amazon RDS, gudang data pihak ketiga melalui integrasi dengan AWS Data Exchange, dan menggabungkan data yang tersimpan di gudang data Amazon Redshift untuk analitik. Pelanggan dapat menerima pembuatan gudang data dengan mudah dan menjalankan machine learning di atas semua data ini.
Amazon Athena sangat cocok untuk analitik interaktif dan penjelajahan data di danau data Anda atau semua sumber data melalui kerangka kerja konektor yang dapat diperluas (termasuk 30 lebih konektor unik untuk aplikasi dan on-premise atau sistem analitik cloud lainnya) tanpa mengkhawatirkan penyerapan atau pemrosesan data. Amazon Athena dibangun di mesin dan kerangka kerja sumber terbuka seperti Spark, Presto, dan Apache Iceberg, yang memberikan pelanggan kebebasan untuk menggunakan Python atau SQL atau mengerjakannya di format data terbuka. Jika pelanggan ingin melakukan analitik interaktif menggunakan kerangka kerja dan format data sumber terbuka, Amazon Athena adalah pilihan terbaik untuk memulai.
Apakah fleksibilitas ukuran berlaku untuk simpul Terpesan Redshift?
Tidak, instans Terpesan Redshift tidak fleksibel, dan hanya berlaku khusus untuk tipe simpul yang Anda pesan.
Analitik SQL Amazon SageMaker
Apa manfaat menggunakan Redshift di SageMaker untuk analitik SQL?
SageMaker menyederhanakan analitik SQL dengan menyediakan platform komprehensif dan ramah pengguna yang menghubungkan berbagai sumber data dan menyederhanakan eksplorasi data. Dengan antarmuka bergaya notebook yang fleksibel, Anda dapat mengakses data dari Amazon Simple Storage Service (Amazon S3), Amazon Redshift, dan sumber data lainnya, menulis dan menjalankan kueri di berbagai mesin, dan langsung membuat visualisasi di dalam alat. Platform ini secara otomatis mengelola metadata data Anda, sehingga lebih mudah untuk memahami dan menemukan informasi. Dengan mengintegrasikan secara mulus dengan layanan AWS lainnya, platform ini memungkinkan Anda melampaui analisis SQL tradisional, mengubah data Anda menjadi wawasan yang dapat ditindaklanjuti dengan kompleksitas teknis minimal.
Apakah saya harus memigrasikan data dari Amazon S3 atau gudang data Amazon Redshift yang ada untuk menggunakan SageMaker untuk analitik SQL?
Tidak, Anda tidak perlu memigrasi data Anda untuk menggunakan SageMaker untuk analitik SQL. Anda dapat langsung menemukan dan mengkueri data dari berbagai sumber, termasuk Amazon S3 (Katalog Data AWS Glue dan bucket tabel Amazon S3), Amazon Redshift (nirserver dan disediakan), dan 13 sumber data gabungan tambahan yang kompatibel dengan alur kerja rekayasa SQL. Amazon SageMaker Lakehouse terhubung dengan mulus ke data Anda saat ini, sehingga Anda dapat fokus pada wawasan, bukan menghabiskan waktu memindahkan informasi. Hanya dalam beberapa langkah cepat, Anda akan dapat menjelajahi data Anda, menjalankan kueri, dan mengungkap informasi bisnis yang berharga tanpa kerepotan teknis.
Bagaimana cara memuat data dan mulai menggunakan SageMaker untuk analitik SQL?
Untuk memulai, SageMaker menawarkan dua cara untuk membawa data Anda ke platform untuk analitik SQL. Jika Anda menyimpan informasi Anda di Amazon S3, SageMaker SQL memungkinkan Anda menjalankan kueri langsung pada data tersebut dengan danau data. Anda juga dapat mengunggah data muat ke gudang data Anda dengan menjalankan perintah COPY. Jika Anda memiliki data lokal di desktop, SageMaker memungkinkan Anda untuk mengunggah file data langsung dari komputer Anda sendiri dengan menyeret dan melepaskan file data ke platform SageMaker. Selain itu, Anda dapat menggunakan nol-ETL untuk membawa data dari gudang data operasional Anda. Seluruh proses dirancang untuk menghilangkan hambatan teknis, memungkinkan Anda untuk fokus menemukan wawasan daripada bergulat dengan proses pemuatan data yang kompleks.
Apa pengalaman buku kueri SageMaker?
Amazon SageMaker unified studio (pratinjau), menawarkan antarmuka bergaya notebook yang andal dan ramah pengguna untuk analitik SQL yang komprehensif. Anda dapat menulis dan menjalankan kode SQL di sel terpisah, membuat bagan dan visualisasi, dan menjelajahi data terpadu dari berbagai sumber, seperti Amazon S3, Amazon Redshift, dan berbagai sumber federasi melalui SageMaker Lakehouse. Platform ini juga menyediakan fitur bermanfaat, seperti pelengkapan otomatis dan pemeriksaan sintaks untuk membantu penulisan SQL Anda. Anda juga dapat menggunakan fungsionalitas AI generatif dengan SQL generatif Amazon Q, yang menyediakan rekomendasi kode SQL menggunakan bahasa alami. SageMaker dirancang untuk membuat analitik SQL lebih intuitif, fleksibel, dan dapat diakses oleh semua pengguna data.
Bagaimana saya bisa membagikan kueri SQL atau model data saya di SageMaker?
Amazon SageMaker Unified Studio (pratinjau) menyediakan "proyek" yang merupakan ruang kerja digital kolaboratif yang membantu tim mengatur dan mengelola pekerjaan analitik data mereka. Anggap saja seperti folder bersama tempat Anda dapat menyimpan kueri SQL, model data, kode, dan sumber daya lainnya di satu lokasi yang aman. Dengan membuat Proyek, Anda membangun lingkungan terpusat tempat anggota tim dapat diundang, diberi izin akses khusus, dan bekerja bersama secara leluasa. Dalam ruang ini, Anda dapat dengan mudah mendistribusikan Querybooks, yang menampung kueri dan model data Anda, dan memberikan akses ke sumber data, seperti Amazon S3 dan Redshift, dan menyediakan sumber daya komputasi bersama. Platform ini mendukung kontrol versi melalui integrasi Git, memungkinkan tim Anda melacak perubahan, berkolaborasi dalam kode, dan memelihara riwayat pekerjaan analitik SQL Anda yang jelas. Pendekatan ini memastikan bahwa semua anggota tim dapat melihat, mengedit, dan menjalankan kueri sambil mempertahankan keamanan dan konsistensi di seluruh beban kerja analitik SQL Anda.
Bagaimana model penetapan harga untuk analitik SQL di SageMaker?
Tidak ada biaya tambahan untuk menggunakan editor SQL di SageMaker. Anda hanya membayar untuk penggunaan mesin komputasi yang tersedia, seperti Amazon Athena dan Amazon Redshift.
Apa SLA untuk Analitik SQL di Amazon SageMaker?
Perjanjian Tingkat Layanan (SLA) Analitik SQL di Amazon SageMaker terkait langsung dengan SLA mesin SQL yang mendasarinya: Amazon Redshift dan Amazon Athena. Pelanggan dapat menemukan informasi komitmen layanan terperinci di halaman perjanjian tingkat layanan masing-masing untuk Amazon Redshift dan Amazon Athena.
Nirserver
Apa itu Amazon Redshift Nirserver?
Amazon Redshift Nirserver adalah opsi nirserver dari Amazon Redshift yang membuat menjalankan dan menskalakan analitik lebih efisien dalam hitungan detik tanpa perlu menyiapkan dan mengelola infrastruktur gudang data. Dengan Redshift Nirserver, setiap pengguna—termasuk analis data, developer, profesional bisnis, dan ilmuwan data—bisa mendapatkan wawasan dari data hanya dengan memuat dan membuat kueri data di gudang data.
Bagaimana cara mulai Amazon Redshift Nirserver
Dengan hanya beberapa langkah dalam Konsol Manajemen AWS, Anda dapat memilih “konfigurasikan Amazon Redshift Nirserver” dan mulai mengkueri data. Anda dapat memanfaatkan contoh set data yang sudah dimuat, seperti data cuaca, data sensus, dan set data tolok ukur, sekaligus contoh kueri untuk segera memulai analitik. Anda dapat membuat basis data, skema, tabel, dan memuat data dari Amazon S3, pembagian data Amazon Redshift, atau memulihkan dari snapshot klaster yang disediakan Redshift yang sudah ada. Anda juga dapat langsung mengkueri data dalam format terbuka (seperti Parquet atau ORC) dalam danau data Amazon S3, atau data kueri dalam basis data operasional, seperti Amazon Aurora dan Amazon RDS PostgreSQL dan MySQL. Lihat Panduan Memulai.
Apa saja keuntungan menggunakan Amazon Redshift Nirserver?
Jika Anda tidak berpengalaman dalam manajemen gudang data, Anda tidak perlu khawatir untuk menyiapkan, mengatur konfigurasi, mengelola klaster, atau menyetel gudang. Anda bisa fokus ke menarik wawasan bermakna dari data Anda atau memberikan hasil bisnis inti Anda melalui data. Anda hanya membayar untuk apa yang Anda gunakan, sehingga biaya tetap terkendali. Anda terus mendapatkan manfaat dari semua performa terbaik Amazon Redshift, fitur-fitur SQL kaya, integrasi tanpa kendala dengan danau data dan gudang data operasional, dan analitik prediktif bawaan serta kemampuan berbagi data. Jika Anda perlu mengendalikan secara rinci gudang data Anda, Anda dapat menyediakan klaster Redshift.
Bagaimana cara Amazon Redshift Nirserver bekerja dengan layanan AWS lainnya?
Anda dapat terus menggunakan semua fungsionalitas analitik yang kaya dari Amazon Redshift, seperti penggabungan kompleks, kueri langsung ke data di danau data dan basis data operasional Amazon S3, tampilan terwujud, prosedur tersimpan, dukungan data semi-terstruktur, dan ML, serta sebagai performa tinggi dalam skala besar. Semua layanan terkait yang terintegrasi dengan Amazon Redshift (seperti Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation, dan AWS Glue) terus bekerja dengan Amazon Redshift Nirserver.
Kasus penggunaan apa yang dapat saya tangani dengan Amazon Redshift Nirserver?
Anda tetap dapat menjalankan semua kasus penggunaan analitik. Dengan alur kerja memulai yang sederhana, penskalaan otomatis, dan kemampuan untuk membayar sesuai penggunaan, pengalaman Amazon Redshift Nirserver sekarang membuatnya lebih efisien dan hemat untuk menjalankan lingkungan pengembangan dan pengujian yang harus dimulai cepat, analitik bisnis ad-hoc, beban kerja dengan kebutuhan komputasi yang berbeda dan tidak terprediksi, serta beban kerja intermiten atau sporadis.
Penyerapan dan pemuatan data
Bagaimana cara memuat data ke gudang data Amazon Redshift saya?
Anda dapat memuat data ke Amazon Redshift dari berbagai sumber data termasuk Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline, dan atau host apa pun yang mendukung SSH pada Amazon EC2 atau on-premise. Amazon Redshift mencoba memuat data Anda secara paralel ke setiap simpul komputasi guna memaksimalkan tingkat di mana Anda dapat menyerap data ke dalam klaster gudang data Anda. Klien dapat tersambung ke Amazon Redshift menggunakan ODBC atau JDBC serta mengeluarkan perintah SQL ‘insert’ untuk menyisipkan data. Perlu diperhatikan bahwa ini lebih lambat dibanding menggunakan S3 atau DynamoDB karena metode tersebut memuat data secara paralel ke tiap simpul komputasi, sementara pernyataan insert SQL memuat data melalui simpul induk tunggal. Untuk detail selengkapnya tentang pemuatan data ke Amazon Redshift, baca Panduan Memulai kami.
Bagaimana salin otomatis Redshift berbeda dengan perintah salin?
Salin otomatis Redshift memberikan kemampuan untuk menyalin pernyataan secara otomatis dengan memantau folder Amazon S3 dan menyerap file baru tanpa intervensi pelanggan. Tanpa salin otomatis, pernyataan salin langsung memulai proses penyerapan file untuk file yang ada. Salin otomatis memperpanjang perintah menyalin yang ada dan memberikan kemampuan untuk 1/ proses penyerapan file otomatis dengan memantau jalur Amazon S3 tertentu untuk file baru, 2/ menggunakan kembali konfigurasi yang disalin, mengurangi keperluan untuk membuat dan menjalankan perintah menyalin baru untuk tugas penyerapan data berulang dan 3/ mengingat file yang dimuat untuk menghindari duplikasi data.
Bagaimana cara memulai salin otomatis Redshift?
Untuk memulai, pelanggan harus memiliki folder Amazon S3 yang dapat diakses dengan klaster Redshift/titik akhir nirserver mereka menggunakan IAM role yang terkait, dan membuat tabel Redshift untuk digunakan sebagai target. Setelah jalur Amazon S3 dan tabel Redshift sudah siap, pelanggan dapat membuat salinan pekerjaan dengan menggunakan perintah salin. Setelah salinan pekerjaan dibuat, Redshift akan mulai memantau jalur Amazon S3 yang ditentukan di belakang layar dan memulai perintah menyalin yang ditentukan pengguna untuk menyalin file baru ke tabel target secara otomatis.
Apa saja kasus penggunaan integrasi Amazon Redshift untuk Apache Spark?
Kasus penggunaan utamanya meliputi: 1/ Pelanggan menggunakan Amazon EMR dan AWS Glue untuk menjalankan pekerjaan di Apache Spark yang mengakses dan memuat data ke Amazon Redshift sebagai bagian dari penyerapan data dan pipeline transformasi (batch dan streaming) 2/ Pelanggan menggunakan Amazon SageMaker untuk menjalankan machine learning menggunakan Apache Spark dan harus mengakses data yang disimpan di Amazon Redshift untuk rekayasa fitur dan transformasi. 3/Pelanggan Amazon Athena menggunakan Apache Spark untuk menjalankan analisis interaktif pada data di Amazon Redshift.
Apa saja keuntungan integrasi Amazon Redshift untuk Apache Spark?
Baikal memberikan keuntungan berikut:
- Kemudahan penggunaan untuk memulai dan menjalankan aplikasi Apache Spark pada data di Amazon Redshift tanpa perlu khawatir tentang langkah-langkah manual yang terlibat untuk menyiapkan serta memelihara versi Spark yang tidak bersertifikat
- Kenyamanan dalam menggunakan Apache Spark dari berbagai layanan AWS seperti Amazon EMR, AWS Glue, Amazon Athena, dan Amazon SageMaker dengan Amazon Redshift dengan konfigurasi minimal
- Peningkatan peforma saat menjalankan aplikasi Apache Spark di Amazon Redshift
Kapan saya harus menggunakan Amazon Aurora Zero-ETL ke Amazon Redshift alih-alih Federated Querying?
Zero-ETL Amazon Aurora ke Amazon Redshift memungkinkan pelanggan Amazon Aurora dan Amazon Redshift untuk menjalankan analitik mendekati waktu nyata dan machine learning dalam petabita data transaksional dengan menawarkan solusi yang dikelola sepenuhnya untuk membuat data transaksional dari Amazon Aurora yang tersedia di Amazon Redshift dalam beberapa detik saat ditulis. Dengan Zero-ETL Amazon Aurora ke Amazon Redshift, pelanggan dapat dengan mudah memilih tabel Amazon Aurora yang memiliki data yang diinginkan untuk menganalisis Amazon Redshift, dan fitur mereplika skema dan data ke dalam Amazon Redshift dengan mulus. Hal ini mengurangi keharusan pelanggan untuk membuat dan mengatur pipeline data kompleks, sehingga mereka dapat fokus pada pengembangan aplikasi mereka. Dengan Zero-ETL Amazon Aurora ke Amazon Redshift, pelanggan dapat mereplikasi data dari beberapa klaster basis data Amazon Aurora ke instans Amazon Redshift yang sama untuk mendapatkan wawasan yang komprehensif di beberapa aplikasi, sekaligus menggabungkan inti aset analitik, yang menghemat banyak biaya dan efisiensi operasional. Dengan Zero-ETL Amazon Aurora ke Amazon Redshift, pelanggan juga dapat mengakses kemampuan analitik inti dan machine learning dari Amazon Redshift seperti tampilan terwujud, berbagi data, dan akses gabungan ke berbagai penyimpanan data dan danau data. Hal ini memungkinkan pelanggan untuk menggabungkan analitik mendekati waktu nyata dan inti untuk mendapatkan wawasan yang sensitif terhadap waktu yang memberi informasi keputusan bisnis secara efektif. Terlebih, pelanggan menggunakan Amazon Aurora untuk transaksi dan Amazon Redshift untuk analitik, jadi mereka tidak membagikan sumber daya komputasi, menghasilkan solusi yang berperforma baik dan stabil secara operasional.
Bagaimana Amazon Aurora Zero-ETL ke Amazon Redshift berkaitan/bekerja dengan layanan AWS lainnya?
Integrasi Nol-ETL Amazon Aurora dengan Amazon Redshift menawarkan integrasi yang lancar antara kedua layanan untuk analitik transaksional.
Bagaimana cara kerja Penyerapan Streaming?
Data streaming berbeda dengan tabel basis data tradisional di saat Anda membuat kueri stream, Anda menangkap evolusi relasi variasi waktu. Tabel, di sisi lain, menangkap snapshot titik waktu dari relasi variasi waktu. Pelanggan Amazon Redshift sudah terbiasa mengoperasikan tabel biasa dan menjalankan pemrosesan downstream (seperti transformasi) data menggunakan model batch tradisional, misalnya “ELT”. Kami menyediakan metode menggunakan Tampilan Terwujud (MV) Redshift sehingga pelanggan dapat dengan mudah mewujudkan titik waktu dari stream, seperti yang diakumulasikan saat dikuerikan, secepat mungkin untuk mendukung alur kerja ELT.
Berbagi data
Apa saja kasus penggunaan untuk berbagi data?
Kasus penggunaan utama meliputi:
- Klaster ETL pusat berbagi data dengan banyak BI/klaster analitik untuk menyediakan isolasi beban kerja baca dan kemampuan penagihan opsional.
- Penyedia data berbagi data ke konsumen eksternal.
- Berbagi set data umum seperti pelanggan dan produk di beberapa grup bisnis berbeda dan berkolaborasi untuk analitik luas dan ilmu data.
- Desentralisasi gudang data untuk menyederhanakan manajemen.
- Berbagi data antara lingkungan pengembangan, pengujian, dan produksi.
- Mengakses data Redshift dari layanan analitik AWS lain.
Apa yang dimaksud dengan kueri lintas basis data di Amazon Redshift?
Dengan kueri basis data silang, Anda dapat dengan lancar membuat kueri dan menggabungkan data dari basis data Redshift mana pun yang aksesnya Anda miliki, terlepas dari basis data mana yang terhubung dengan Anda. Ini dapat termasuk lokal basis data pada kluster dan juga set data bersama yang dibuat tersedia dari kluster jarak jauh. Kueri basis data silang memberi Anda fleksibilitas untuk menyusun basis data terpisah guna mendukung konfigurasi multi-penyewa.
Siapa pengguna utama AWS Data Exchange?
AWS Data Exchange membuat pertukaran dan penggunaan data pihak ketiga di AWS menjadi lebih efisien bagi pelanggan AWS. Analis data, manajer produk, manajer portfolio, ilmuwan data, analis kuantitatif, teknisi percobaan klinis, dan developer di hampir setiap industri menginginkan akses ke lebih banyak data untuk mendorong analitik, melatih model ML, dan membuat keputusan yang berdasarkan data. Namun, tidak ada satu tempat untuk menemukan data dari beberapa penyedia dan tidak ada konsistensi terkait cara penyedia memberikan data, sehingga mereka terpaksa menggunakan media fisik yang terpisah, kredensial FTP, dan panggilan API yang dipesan. Sebaliknya, banyak organisasi ingin membuat data mereka tersedia untuk tujuan penelitian atau komersial, namun terlalu sulit dan mahal untuk membangun dan mempertahankan pengiriman data, hak, dan teknologi penagihan, yang semakin menekan suplai data berharga.
Skalabilitas dan konkurensi
Bagaimana cara menskalakan ukuran dan performa klaster gudang data Amazon Redshift saya?
Amazon Redshift Nirserver secara otomatis menyediakan kapasitas gudang data dan menskalakan sumber daya yang mendasarinya secara cerdas. Amazon Redshift Nirserver menyesuaikan kapasitas dalam hitungan detik untuk memberikan performa tinggi secara konsisten dan menyederhanakan operasi bahkan untuk beban kerja yang paling berat dan fluktuatif sekalipun. Dengan fitur Penskalaan Konkurensi, Anda dapat mendukung pengguna konkuren dan kueri konkuren yang tidak terbatas, dengan performa kueri yang cepat secara konsisten. Saat penskalaan konkurensi diaktifkan, Amazon Redshift secara otomatis menambahkan kapasitas klaster saat klaster Anda mengalami peningkatan dalam antrean kueri.
Untuk penskalaan manual, jika ingin meningkatkan performa kueri atau merespons penggunaan CPU, memori, atau I/O berlebih, Anda dapat meningkatkan jumlah simpul di dalam klaster gudang data menggunakan Elastic Resize melalui Konsol Manajemen AWS atau API ModifyCluster. Saat Anda mengubah klaster gudang data, perubahan yang Anda minta akan segera diterapkan. Metrik untuk pemanfaatan komputasi, pemanfaatan penyimpanan, dan lalu lintas baca/tulis ke klaster gudang data Redshift Anda tersedia secara gratis melalui Konsol Manajemen AWS atau API Amazon CloudWatch. Anda juga dapat menambahkan metrik yang ditentukan pengguna melalui fungsi metrik kustom Amazon CloudWatch.
Dengan Amazon Redshift Spectrum, Anda dapat menjalankan beberapa klaster Redshift yang mengakses data yang sama dalam Amazon S3. Anda dapat menggunakan klaster berbeda untuk kasus penggunaan berbeda. Misalnya, Anda dapat menggunakan satu klaster untuk pelaporan standar dan klaster lain untuk kueri ilmu data. Tim pemasaran Anda dapat menggunakan klaster mereka sendiri yang berbeda dari tim operasi Anda. Redshift Spectrum secara otomatis mendistribusikan eksekusi kueri ke beberapa pekerja Redshift Spectrum dari kumpulan sumber daya bersama untuk membaca dan memproses data dari Amazon S3, lalu mengembalikan hasilnya ke klaster Redshift untuk pemrosesan yang tersisa.
Apakah klaster gudang data saya akan tetap tersedia selama penskalaan?
Tergantung. Saat Anda menggunakan fitur Penskalaan Konkurensi, klaster tersedia sepenuhnya untuk baca dan tulis selama penskalaan konkurensi. Dengan Pengubahan ukuran elastis, klaster tidak tersedia selama empat hingga delapan menit dari waktu pengubahan ukuran. Dengan elastisitas penyimpanan RA3 Redshift dalam penyimpanan terkelola, klaster tersedia sepenuhnya dan data dipindahkan secara otomatis antara penyimpanan terkelola dan simpul komputasi.
Apa itu Elastic Resize dan apa perbedaannya dengan Concurrency Scaling?
Perubahan Ukuran Elastis menambahkan atau menghapus simpul dari klaster Redshift tunggal dalam hitungan menit untuk mengelola throughput kuerinya. Misalnya, beban kerja ETL untuk beberapa jam tertentu dalam sehari atau pelaporan akhir bulan mungkin memerlukan sumber daya Amazon Redshift tambahan untuk diselesaikan tepat waktu. Penskalaan Konkurensi menambahkan sumber daya klaster tambahan untuk meningkatkan keseluruhan konkurensi kueri.
Dapatkah saya mengakses klaster Penskalaan Konkurensi secara langsung?
Tidak. Penskalaan Konkurensi merupakan kumpulan besar sumber daya Amazon Redshift yang dapat diskalakan dan pelanggan tidak memiliki akses langsung.
Keamanan
Bagaimana cara Amazon Redshift mengamankan data saya?
Amazon Redshift mendukung keamanan yang terkemuka di industri dengan manajemen dan federasi identitas untuk masuk tunggal (SSO), autentikasi multi-faktor, kontrol akses tingkat kolom, keamanan tingkat baris, kontrol akses berbasis peran, dan Amazon Virtual Private Cloud (Amazon VPC) bawaan. Dengan Amazon Redshift, data Anda dienkripsi dengan diam dan bergerak. Semua fitur keamanan Amazon Redshift ditawarkan secara unik tanpa biaya tambahan untuk memenuhi persyaratan keamanan, privasi, dan kepatuhan. Anda mendapatkan manfaat AWS yang mendukung lebih banyak standar keamanan dan sertifikasi kepatuhan dibandingkan penyedia lainnya, termasuk ISO 27001, SOC, HIPAA/HITECH, dan FedRAMP.
Apakah Redshift mendukung kontrol akses terperinci?
Ya, Amazon Redshift menyediakan dukungan bagi kontrol akses berbasis peran. Kontrol akses tingkat baris memungkinkan Anda untuk menetapkan satu atau beberapa peran ke pengguna, dan menetapkan izin sistem dan objek berdasarkan peran. Anda dapat menggunakan peran sistem unik–pengguna root, dba, operator, dan admin keamanan, atau membuat peran Anda sendiri.
Apakah Amazon Redshift mendukung pengaburan data atau tokenisasi data?
Fungsi AWS Lambda yang ditetapkan pengguna (UDF) memungkinkan Anda menggunakan fungsi AWS Lambda sebagai UDF di Amazon Redshift dan memanggilnya dari kueri Redshift SQL. Fungsi ini memungkinkan Anda menulis ekstensi kustom untuk kueri SQL Anda guna mencapai integrasi yang lebih erat dengan layanan atau produk pihak ketiga lainnya. Anda dapat menulis Lambda UDF untuk mengaktifkan tokenisasi eksternal, masking data, identifikasi atau deidentifikasi data melalui integrasi dengan vendor seperti Protegrity, dan melindungi atau tidak melindungi data sensitif berdasarkan izin dan grup pengguna, dalam waktu kueri.
Dengan dukungan untuk masking data dinamis, pelanggan dapat dengan mudah melindungi data sensitif dan akses granular mereka dengan mengelola kebijakan Masking Data. Anggaplah Anda memiliki aplikasi yang memiliki banyak pengguna dan objek dengan data sensitif yang tidak dapat diekspos ke semua pengguna. Anda memiliki persyaratan untuk memberikan tingkat keamanan granular berbeda yang ingin Anda berikan kepada grup pengguna yang berbeda. Masking Data Dinamis Redshift dapat dikonfigurasi untuk memungkinkan pelanggan menentukan nilai data yang di-masking yang konsisten, mempertahankan format, dan tidak dapat diubah. Setelah fiturnya menjadi GA, Anda segera mulai menggunakannya. Admin keamanan dapat membuat dan menerapkan kebijakan hanya dengan beberapa perintah.
Apakah Amazon Redshift mendukung masuk tunggal?
Ya. Pelanggan yang ingin menggunakan penyedia identitas perusahaan mereka seperti Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate, atau penyedia identitas lainnya yang tunduk pada SAML dapat mengonfigurasi Amazon Redshift untuk menyediakan masuk tunggal. Anda dapat masuk ke klaster Amazon Redshift dengan identitas Microsoft Azure Active Directory (AD). Tindakan ini memungkinkan Anda untuk masuk ke Redshift tanpa menduplikasi identitas Azure Active Directory di Redshift.
Apakah Amazon Redshift mendukung autentikasi multi-faktor (MFA)?
Ya. Anda dapat menggunakan autentikasi multi-faktor (MFA) untuk keamanan tambahan saat melakukan autentikasi ke klaster Amazon Redshift.
Ketersediaan dan ketahanan
Apa yang terjadi pada ketersediaan klaster gudang data dan ketahanan data saya jika terjadi kegagalan simpul individual?
Amazon Redshift secara otomatis akan mendeteksi dan mengganti simpul yang gagal dalam klaster gudang data Anda. Pada klaster Komputasi Padat (DC) dan Penyimpanan Padat (DS2), data disimpan pada simpul komputasi untuk memastikan ketahanan data tinggi. Saat suatu simpul diganti, data disegarkan dari salinannya di simpul lain. Klaster RA3 dan Redshift nirserver tidak terdampak dengan cara yang sama karena data disimpan dalam Amazon S3 dan drive lokal hanya digunakan sebagai cache data. Klaster gudang data tidak akan tersedia untuk kueri dan pembaruan hingga simpul pengganti disediakan dan ditambahkan ke DB. Amazon Redshift segera menyediakan simpul pengganti Anda dan memuat data Anda yang paling sering diakses dari Amazon S3 terlebih dahulu agar memungkinkan Anda melanjutkan kueri data secepat mungkin. Klaster simpul tunggal tidak mendukung replikasi data. Jika terjadi kegagalan drive, Anda harus memulihkan klaster dari snapshot di S3. Kami menyarankan penggunaan setidaknya dua simpul untuk produksi.
Apa yang terjadi pada ketersediaan klaster gudang data dan ketahanan data saya jika Zona Ketersediaan (AZ) klaster gudang data mengalami pemadaman?
Jika gudang data Amazon Redshift Anda adalah deployment AZ tunggal dan Zona Ketersediaan klaster menjadi tidak tersedia, maka Amazon Redshift akan secara otomatis memindahkan klaster Anda ke Zona Ketersediaan (AZ) AWS lainnya tanpa kehilangan data atau mengubah aplikasi. Untuk mengaktifkan ini, Anda harus mengaktifkan kemampuan relokasi di pengaturan konfigurasi klaster Anda.
Mengapa saya harus menggunakan deployment Multi-AZ Redshift?
Tidak seperti deployment AZ tunggal, pelanggan kini dapat meningkatkan ketersediaan Redshift dengan menjalankan gudang data mereka dalam deployment multi-AZ. Deployment multi-AZ memungkinkan Anda menjalankan gudang data Anda di beberapa Zona Ketersediaan (AZ) AWS secara bersamaan dan terus beroperasi dalam skenario kegagalan yang tidak terduga. Tidak diperlukan perubahan aplikasi untuk mempertahankan kelangsungan bisnis karena deployment Multi-AZ dikelola sebagai gudang data tunggal dengan satu titik akhir. Deployment multi-AZ mengurangi waktu pemulihan dengan menjamin kapasitas pulih secara otomatis dan ditujukan untuk pelanggan dengan aplikasi analitik penting bisnis yang memerlukan tingkat ketersediaan dan ketahanan tertinggi terhadap kegagalan AZ. Hal ini juga memungkinkan pelanggan menerapkan solusi yang lebih sesuai dengan rekomendasi Pilar Keandalan dari Kerangka Kerja AWS Well-Architected. Untuk mempelajari selengkapnya tentang Multi-AZ Amazon Redshift, lihat di sini.
Apa itu RPO dan RTO? RPO dan RTO apa yang didukung dengan deployment Multi-AZ?
RPO adalah singkatan dari Sasaran Titik Pemulihan (RPO) dan merupakan istilah untuk menggambarkan jaminan kebaruan data jika terjadi kegagalan. RPO adalah jumlah waktu maksimum yang dapat diterima sejak titik pemulihan data terakhir. Hal ini menentukan apa yang dianggap sebagai kehilangan data yang dapat diterima antara titik pemulihan terakhir dan gangguan layanan. Multi-AZ Redshift mendukung RPO = 0, yang berarti data dijamin terkini dan terbaru jika terjadi kegagalan. Pengujian pra-peluncuran kami menemukan bahwa RTO dengan deployment Multi-AZ Amazon Redshift berdurasi kurang dari 60 detik atau kurang jika terjadi kegagalan AZ.
Bagaimana perbandingan Multi-AZ Redshift dengan fitur Relokasi Redshift yang ada?
Relokasi Redshift diaktifkan secara default di semua klaster RA3 baru dan titik akhir nirserver, yang memungkinkan gudang data dimulai ulang di AZ lain jika terjadi pemahaman skala besar, tanpa kehilangan data atau biaya tambahan. Meskipun penggunaan Relokasi gratis, batasannya adalah bahwa ini merupakan upaya pendekatan terbaik yang tunduk pada ketersediaan sumber daya di AZ yang sedang dipulihkan dan Sasaran Waktu Pemulihan (RTO) dapat dipengaruhi oleh masalah lain yang terkait dengan memulai klaster baru. Hal ini dapat mengakibatkan waktu pemulihan antara 10 hingga 60 menit. Multi-AZ Redshift mendukung persyaratan ketersediaan tinggi dengan memberikan RTO yang diukur dalam hitungan detik dan menawarkan jaminan pengoperasian yang berkelanjutan karena tidak akan tunduk pada batasan kapasitas atau potensi masalah lain dalam membuat klaster baru.
Kueri dan analitik
Apakah Amazon Redshift dan Redshift Spectrum kompatibel dengan paket perangkat lunak kecerdasan bisnis dan alat ETL pilihan saya?
Ya, Amazon Redshift menggunakan SQL standar industri dan diakses menggunakan driver JDBC dan ODBC standar. Anda dapat mengunduh driver JDBC dan ODBC kustom Amazon Redshift dari tab Connect Client dari Konsol Redshift. Kami telah memvalidasi integrasi dengan vendor BI dan ETL populer, beberapa di antaranya menawarkan uji coba gratis untuk membantu Anda mulai memuat dan menganalisis data. Anda juga dapat membuka AWS Marketplace untuk melakukan deployment dan mengonfigurasi solusi yang didesain untuk bekerja dengan Amazon Redshift dalam hitungan menit.
Amazon Redshift Spectrum mendukung semua alat klien Amazon Redshift. Alat klien dapat terus terhubung ke endpoint klaster Amazon Redshift menggunakan koneksi ODBC dan JDBC. Tidak ada perubahan yang diperlukan.
Anda menggunakan sintaksis kueri yang benar-benar sama dan memiliki kemampuan kueri yang sama untuk mengakses tabel di Redshift Spectrum seperti Anda miliki untuk tabel dalam penyimpanan lokal klaster Redshift Anda. Tabel eksternal direferensikan menggunakan nama skema yang ditentukan dalam perintah CREATE EXTERNAL SCHEMA di mana tabel tersebut terdaftar.
Apa saja format data dan format kompresi yang didukung Amazon Redshift Spectrum?
Amazon Redshift Spectrum saat ini mendukung banyak format data sumber terbuka, termasuk Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text, dan TSV.<br>Amazon Redshift Spectrum saat ini mendukung kompresi Gzip serta Snappy.
Apa yang terjadi jika tabel dalam penyimpanan lokal saya memiliki nama yang sama seperti tabel eksternal?
Sama seperti tabel lokal, Anda dapat menggunakan nama skema untuk memilih tabel yang Anda maksud dengan menggunakan schema_name.table_name di dalam kueri Anda.
Saya menggunakan Hive Metastore untuk menyimpan metadata tentang danau data S3. Dapatkah saya menggunakan Redshift Spectrum?
Ya. Perintah CREATE EXTERNAL SCHEMA mendukung Hive Metastore. Kami saat ini belum mendukung DDL terhadap Hive Metastore.
Bagaimana cara mendapatkan daftar semua tabel basis data eksternal yang dibuat di klaster saya?
Anda dapat membuat kueri tabel sistem SVV_EXTERNAL_TABLES untuk memperoleh informasi tersebut.
Apakah Redshift mendukung kemampuan menggunakan Machine Learning dengan SQL?
Ya, fitur Amazon Redshift ML memudahkan pengguna SQL membuat, melatih, dan men-deploy model machine learning (ML) menggunakan perintah SQL yang lazim. Amazon Redshift ML memungkinkan Anda untuk memanfaatkan data di Amazon Redshift dengan Amazon SageMaker, layanan machine learning yang dikelola sepenuhnya. Amazon Redshift mendukung pembelajaran yang tidak diawasi (K-Means) dan pembelajaran yang diawasi (algoritma Autopilot, XGBoost, MLP). Anda juga dapat menggunakan layanan AI Bahasa AWS untuk menerjemahkan, menyusun, dan menganalisis bidang teks di kueri SQL dengan fungsi Lambda UDF yang sudah dibangun sebelumnya - lihat postingan blog.
Apakah Amazon Redshift menyediakan API untuk mengueri data?
Amazon Redshift menyediakan API Data yang dapat Anda gunakan untuk mengakses data dengan mudah dari Amazon Redshift dengan semua tipe aplikasi berbasis layanan web nirserver dan didorong peristiwa yang bersifat tradisional, cloud-native, serta dalam kontainer. API Data menyederhanakan akses ke Amazon Redshift karena Anda tidak perlu mengatur konfigurasi driver dan mengelola koneksi basis data. Sebagai gantinya, Anda dapat menjalankan perintah SQL ke kluster Amazon Redshift dengan cukup memanggil endpoint API aman yang disediakan oleh API Data. API Data menangani pengelolaan koneksi basis data dan buffering data. API Data bersifat asinkron, sehingga Anda dapat mengambil hasilnya nanti. Hasil kueri Anda disimpan selama 24 jam.
Tipe kredensial apa yang dapat saya gunakan dengan API Data Amazon Redshift?
API Data mendukung kredensial IAM dan menggunakan kunci rahasia dari AWS Secrets Manager. API Data menggabungkan kredensial AWS Identity and Access Management (IAM) agar Anda dapat menggunakan penyedia identitas seperti Okta atau Azure Active Directory atau kredensial basis data yang disimpan di Secrets Manager tanpa meneruskan kredensial basis data di panggilan API.
Dapatkah saya menggunakan API Data Amazon Redshift dari AWS CLI?
Ya, Anda dapat menggunakan API Data dari AWS CLI dengan menggunakan opsi perintah aws redshift-data.
Apakah API Data Redshift terintegrasi dengan layanan AWS lainnya?
Anda dapat menggunakan API Data dari layanan lainnya seperti AWS Lambda, AWS Cloud9, AWS AppSync, dan Amazon EventBridge.
Apakah saya harus membayar secara terpisah untuk penggunaan API Data Amazon Redshift?
Tidak, tidak ada biaya terpisah untuk menggunakan API Data.
Integrasi Nol-ETL
Apa itu nol-ETL?
Nol-ETL adalah sekumpulan integrasi yang dikelola sepenuhnya oleh AWS yang menghilangkan atau meminimalkan kebutuhan untuk membangun pipeline data extract, transform, and load (ETL). Nol-ETL membuat data tersedia di SageMaker Lakehouse dan Amazon Redshift dari berbagai sumber operasional, sumber transaksional, dan aplikasi perusahaan. ETL adalah proses menggabungkan, membersihkan, dan menormalkan data dari berbagai sumber untuk menyiapkannya untuk analitik, AI, dan beban kerja ML. Proses ETL tradisional menyita waktu dan kompleks untuk dikembangkan, dipelihara, dan diskalakan. Sebaliknya, integrasi nol-ETL memfasilitasi pergerakan data titik ke titik tanpa perlu membuat dan mengoperasikan alur data ETL.
Buka Apa itu nol-ETL? untuk mempelajari selengkapnya.
Tantangan ETL apa yang dipecahkan oleh integrasi nol-ETL?
Integrasi nol-ETL memecahkan banyak tantangan pergerakan data yang ada dalam proses ETL tradisional, termasuk:
- Peningkatan kompleksitas sistem karena aturan pemetaan data yang rumit, penanganan kesalahan, dan persyaratan keamanan
- Biaya tambahan dari meningkatnya volume data, peningkatan infrastruktur, dan pemeliharaan
- Waktu tertunda untuk analitik, AI, dan ML karena pengembangan dan deployment kode khusus, menyebabkan peluang yang terlewatkan untuk kasus penggunaan waktu nyata.
Apa saja manfaat dari nol-ETL?
- Peningkatan kelincahan: nol-ETL menyederhanakan arsitektur data dan mengurangi upaya rekayasa data. Hal ini memungkinkan penyertaan sumber data baru tanpa perlu memproses ulang sejumlah besar data. Fleksibilitas ini meningkatkan ketangkasan, yang mendukung pengambilan keputusan berbasis data dan inovasi yang cepat.
- Efisiensi biaya: Nol-ETL menggunakan teknologi integrasi data yang bersifat cloud-native dan dapat diskalakan sehingga memungkinkan bisnis untuk mengoptimalkan biaya berdasarkan penggunaan aktual dan kebutuhan pemrosesan data. Organisasi mengurangi biaya infrastruktur, upaya pengembangan, dan biaya pemeliharaan.
- Waktu singkat menuju wawasan: Proses ETL tradisional sering kali melibatkan pembaruan batch berkala, yang mengakibatkan ketersediaan data tertunda. Di sisi lain, integrasi nol-ETL menyediakan akses data hampir waktu nyata yang membantu menyediakan data untuk analitik, AI/ML, dan pelaporan yang terbaru. Anda mendapatkan wawasan yang lebih akurat dan tepat waktu untuk kasus penggunaan, seperti dasbor waktu nyata, pengalaman bermain game yang dioptimalkan, pemantauan kualitas data, dan analisis perilaku pelanggan. Organisasi dapat membuat prediksi berbasis data dengan lebih percaya diri, meningkatkan pengalaman pelanggan, dan mempromosikan wawasan berbasis data di seluruh bisnis.
Apa integrasi nol-ETL yang tersedia dari AWS saat ini?
Di re:Invent 2024, kami akan mengumumkan empat integrasi nol-ETL berikut:
- Amazon SageMaker Lakehouse dan Amazon Redshift mendukung integrasi nol-ETL dari aplikasi
- Integrasi nol-ETL Amazon DynamoDB dengan Amazon SageMaker Lakehouse
- Integrasi nol-ETL Amazon OpenSearch Service dengan Log Amazon CloudWatch
- Integrasi nol-ETL Amazon OpenSearch Service dengan Amazon Security Lake
Sejak peluncuran integrasi nol-ETL, kami telah memperkenalkan tujuh integrasi:
- Integrasi nol-ETL Amazon Aurora MySQL dengan Amazon Redshift
- Integrasi nol-ETL Amazon Aurora PostgreSQL dengan Amazon Redshift
- Amazon Relational Database Service (Amazon RDS) untuk integrasi nol-ETL MySQL dengan Amazon Redshift
- Integrasi nol-ETL Amazon DynamoDB dengan Amazon OpenSearch Service
- Integrasi nol-ETL Amazon DocumentDB dengan Amazon OpenSearch Service
- Integrasi nol-ETL Amazon OpenSearch Service dengan Amazon Simple Storage Service (Amazon S3)
- Integrasi nol-ETL Amazon DynamoDB dengan Amazon Redshift
Bagaimana model penetapan harga untuk nol-ETL?
Untuk mempelajari selengkapnya tentang harga, kunjungi halaman harga Amazon Redshift, AWS Glue, dan SageMaker Lakehouse.
Di mana saya dapat mempelajari selengkapnya tentang nol-ETL dan fitur baru ini?
Untuk mempelajari selengkapnya tentang nol-ETL, kunjungi Apa itu nol-ETL?
Bagaimana perubahan skema ditangani dengan integrasi nol-ETL?
Berikut adalah beberapa poin penting tentang cara menangani perubahan skema:
- Pernyataan DDL, seperti CREATE TABLE, ALTER TABLE, DROP TABLE, dan seterusnya direplikasi secara otomatis dari Aurora ke Amazon Redshift.
- Integrasi ini melakukan pemeriksaan dan penyesuaian yang diperlukan dalam tabel Amazon Redshift untuk perubahan skema yang direplikasi. Misalnya, menambahkan kolom di Aurora akan menambahkan kolom di Amazon Redshift.
- Replikasi dan perubahan skema secara otomatis terjadi secara waktu nyata dengan jeda minimal antara basis data sumber dan target.
- Konsistensi skema dipertahankan bahkan ketika perubahan DML terjadi secara paralel dengan perubahan DDL.
Bagaimana cara menjalankan transformasi pada data saya menggunakan integrasi nol-ETL?
Anda dapat membuat tampilan terwujud di basis data Amazon Redshift lokal Anda untuk mentransformasikan data yang direplikasi melalui integrasi nol-ETL. Hubungkan ke basis data lokal Anda dan gunakan kueri lintas basis data untuk mengakses basis data tujuan. Anda dapat menggunakan nama objek yang sepenuhnya memenuhi syarat dengan notasi tiga bagian (destination-database-name.schema-name.table-name) atau membuat skema eksternal yang mereferensikan basis data tujuan dan pasangan skema serta menggunakan notasi dua bagian (external-schema-name.table-name).
Pencadangan dan pemulihan
Bagaimana cara Amazon Redshift mencadangkan data saya? Bagaimana cara memulihkan klaster dari cadangan?
Klaster Amazon Redshift RA3 dan Amazon Redshift Nirserver menggunakan Penyimpanan Terkelola Redshift, yang selalu memiliki salinan terbaru data yang tersedia. Klaster DS2 dan DC2 membuat salinan data pada klaster untuk memastikan salinan terbaru tersedia jika terjadi kegagalan. Cadangan otomatis dibuat pada semua tipe klaster Redshift serta dipertahankan selama 24 jam, dan pada nirserver disediakan titik pemulihan untuk 24 jam terakhir
Anda juga dapat membuat cadangan Anda sendiri yang dapat dipertahankan selamanya. Cadangan ini dapat dibuat kapan saja, dan cadangan otomatis Amazon Redshift atau titik pemulihan Amazon Redshift Nirserver dapat dikonversikan ke dalam cadangan pengguna untuk retensi yang lebih lama.
Amazon Redshift dapat juga mereplika snapshot Anda secara tidak sinkron ke Amazon S3 dalam Wilayah lain untuk pemulihan bencana.
Pada klasyer DS2 atau DC2, penyimpanan cadangan gratis terbatas pada total ukuran penyimpanan di simpul dalam klaster gudang data dan hanya berlaku untuk klaster gudang data aktif.
Misalnya, jika Anda memiliki total penyimpanan gudang data sebesar 8 TB, kami akan memberikan paling banyak 8 TB penyimpanan cadangan tanpa biaya tambahan. Jika ingin memperpanjang periode retensi cadangan lebih dari satu hari, Anda dapat melakukannya menggunakan Konsol Manajemen AWS atau API Amazon Redshift. Untuk informasi selengkapnya tentang snapshot otomatis, silakan baca Panduan Pengelolaan Amazon Redshift.
Amazon Redshift hanya mencadangkan data yang berubah, sehingga sebagian besar snapshot hanya menggunakan sedikit ruang penyimpanan cadangan yang tersisa. Saat Anda perlu memulihkan cadangan, Anda memiliki akses ke semua cadangan otomatis dalam periode retensi cadangan Anda. Setelah Anda memilih dari cadangan mana Anda memulihkan, kami akan menyediakan klaster gudang data baru dan kemudian memulihkan data Anda ke dalamnya.
Bagaimana cara mengelola retensi cadangan dan snapshot otomatis saya?
Anda dapat menggunakan Konsol Manajemen AWS atau API ModifyCluster untuk mengelola periode waktu pencadangan otomatis dipertahankan dengan memodifikasi parameter RetentionPeriod. Jika Anda ingin menonaktifkan pencadangan otomatis seluruhnya, Anda dapat mengatur periode retensi ke 0 (tidak disarankan).
Apa yang terjadi pada cadangan saya jika saya menghapus klaster gudang data?
Saat Anda menghapus klaster gudang data, Anda memiliki kemampuan untuk menentukan apakah snapshot akhir dibuat saat penghapusan. Hal ini memungkinkan pemulihan klaster gudang data yang telah dihapus di kemudian hari. Semua snapshot manual yang dibuat sebelumnya dari klaster gudang data Anda akan dipertahankan dan dikenai tarif Amazon S3 standar, kecuali jika Anda memilih untuk menghapusnya.
Pemantauan dan pemeliharaan
Bagaimana cara memantau performa klaster gudang data Amazon Redshift saya?
Metrik untuk pemanfaatan komputasi, pemanfaatan penyimpanan, dan lalu lintas baca/tulis ke klaster gudang data Amazon Redshift Anda tersedia secara gratis melalui Konsol Manajemen AWS atau API Amazon CloudWatch. Anda juga dapat menambahkan metrik tambahan yang ditentukan pengguna melalui fungsi metrik kustom Amazon CloudWatch. Konsol Manajemen AWS menyediakan dasbor pemantauan yang membantu Anda memantau status dan performa seluruh klaster Anda. Amazon Redshift juga menyediakan informasi mengenai kueri dan kinerja klaster melalui Konsol Manajemen AWS. Informasi ini memungkinkan Anda melihat pengguna dan kueri mana yang paling banyak menggunakan sumber daya sistem untuk mendiagnosis masalah kinerja dengan melihat statistik rencana serta eksekusi kueri. Selain itu, Anda dapat melihat pemanfaatan sumber daya pada tiap simpul komputasi untuk memastikan bahwa Anda memiliki data dan kueri yang seimbang di semua simpul.
Apa itu periode pemeliharaan? Apakah klaster gudang data saya akan tersedia selama pemeliharaan perangkat lunak?
Amazon Redshift secara periodik melakukan pemeliharaan untuk menerapkan perbaikan, peningkatan, dan fitur baru pada klaster Anda. Anda dapat mengubah periode pemeliharaan terjadwal dengan mengubah klaster, baik secara terprogram atau dengan menggunakan Konsol Redshift. Selama periode pemeliharaan ini, klaster Amazon Redshift Anda tidak akan tersedia untuk operasi normal. Untuk informasi selengkapnya mengenai periode pemeliharaan dan jadwal berdasarkan Wilayah, baca Periode Pemeliharaan dalam Panduan Pengelolaan Amazon Redshift.