Amazon Bedrock 가드레일
애플리케이션 요구 사항 및 책임 있는 AI 정책에 맞게 사용자 지정된 보호 장치를 구현Guardrails를 사용하여 책임 있는 AI 애플리케이션을 구축
Amazon Bedrock Guardrails는 대규모 생성형 AI 애플리케이션을 안전하게 구축하는 데 도움이 되는 구성 가능한 보호 기능을 제공합니다. Guardrails는 지원되는 모든 파운데이션 모델(FM)에서 사용되는 일관되고 표준적인 접근 방식을 통해 업계 최고의 안전 보호 기능을 제공합니다.
- 자동 추론을 사용하여 할루시네이션으로 인한 사실 오류를 방지(이를 위한 최초이자 유일한 생성형 AI 보호 기능)
- 바람직하지 않은 또는 유해한 콘텐츠를 최대 85% 더 차단
- 검색 증강 생성(RAG) 및 요약 사용 사례를 위한 모델에서 75% 이상의 할루시네이션 응답을 필터링
생성형 AI 애플리케이션 전반에 걸쳐 일관된 수준의 안전성 제공
Guardrails는 최고의 클라우드 제공업체가 제공하는 유일한 책임 있는 AI 기능으로, 단일 솔루션 내에서 생성형 AI 애플리케이션을 위한 안전, 개인 정보 보호, 진실성 보호 기능을 구축하고 사용자 지정할 수 있도록 지원합니다. Guardrails는 사용 사례별 정책을 기반으로 사용자 입력 및 모델 응답을 평가하는 데 도움이 되며 FM에서 기본적으로 제공하는 보호 기능 외에 추가 보호 계층을 제공합니다. Guardrails는 Amazon Bedrock에서 지원되는 FM, 미세 조정된 모델, Amazon Bedrock 외부의 자체 호스팅 모델을 비롯하여 다양한 모델에서 사용할 수 있습니다. ApplyGuardrail API를 사용하여 서드 파티 및 자체 호스팅 모델에 대해 사용자 입력 및 모델 출력을 독립적으로 평가할 수 있습니다. Guardrails를 Amazon Bedrock Agents 및 Amazon Bedrock Knowledge Bases와 통합하여 책임 있는 AI 정책에 부합하는 보다 안전한 생성형 AI 애플리케이션을 구축할 수 있습니다.
문맥적 근거 확인을 사용해 모델 응답에서 할루시네이션 감지
고객은 사용자의 신뢰를 유지하고 강화하기 위해 진실되고 신뢰할 수 있는 생성형 AI 애플리케이션을 배포해야 합니다. 그러나 FM은 할루시네이션(예: 소스 정보에서 벗어나거나, 여러 정보를 혼합하거나, 새로운 정보를 생성하는 등)으로 인해 잘못된 정보를 생성할 수 있습니다. Amazon Bedrock Guardrails는 응답이 소스 정보에 근거하지 않고(예: 사실적으로 부정확하거나 새로운 정보) 사용자의 쿼리 또는 명령과 관련이 없는 경우 할루시네이션을 감지하고 필터링할 수 있도록 문맥적 근거 확인을 지원합니다. 문맥적 근거 확인은 RAG, 요약 및 대화형 애플리케이션에서 할루시네이션을 감지하는 데 도움이 될 수 있으며, 소스 정보를 참조로 사용하여 모델 응답을 검증할 수 있습니다.
할루시네이션으로 인한 사실 오류를 방지하고 검증 가능한 정확성을 제공하는 자동 추론 검사
Amazon Bedrock Guardrails의 자동 추론 검사(평가판)는 응답이 올바른 이유를 설명하는 논리적으로 정확하고 검증 가능한 추론을 사용하여 할루시네이션으로 인한 사실 오류를 방지하는 데 도움이 되는 최초이자 유일한 생성형 AI 보호 기능입니다. 자동 추론은 생성된 정보를 검증, 수정, 논리적으로 설명하는 건전한 수학적 기법을 사용하여 할루시네이션을 완화하는 데 도움이 됩니다. 따라서 출력이 알려진 사실과 일치하고 조작되거나 일관되지 않은 데이터를 기반으로 하지 않도록 보장합니다. 개발자는 HR 가이드라인 또는 운영 매뉴얼과 같이 적절한 솔루션 공간을 정의하는 기존 문서를 업로드하여 자동 추론 정책을 생성할 수 있습니다. 그러면 Amazon Bedrock은 고유한 자동 추론 정책을 생성하고 사용자에게 이를 테스트하고 개선하는 과정을 안내합니다. 자동 추론 정책에 따라 생성된 콘텐츠를 검증하려면 사용자는 Guardrails에서 정책을 활성화하고 고유한 Amazon 리소스 이름(ARN) 목록을 사용하여 정책을 구성해야 합니다. 이 로직 기반 알고리즘 검증 프로세스는 모델에서 생성된 정보가 알려진 사실과 일치하는지, 조작되거나 일치하지 않는 데이터를 기반으로 하지 않는지 확인합니다. 이러한 검사는 생성형 AI 모델에서 입증할 수 있는 정확한 응답을 제공하므로 소프트웨어 공급업체는 HR, 재무, 법률, 규정 준수 등의 사용 사례에 대한 애플리케이션의 신뢰성을 개선할 수 있습니다.
생성형 AI 애플리케이션에서 바람직하지 않은 주제 차단
조직 리더는 적절하고 안전한 사용자 경험을 보장하기 위해 생성형 AI 애플리케이션 내의 상호 작용을 관리해야 합니다. 그러려면 비즈니스 관련 주제에 초점을 맞추고 회사 정책에 부합하도록 상호 작용을 추가로 사용자 지정하는 것이 좋습니다. Guardrails에서는 짧은 자연어 설명을 사용하여 애플리케이션 컨텍스트 내에서 방지할 주제 세트를 정의할 수 있습니다. Guardrails는 제한된 주제에 해당하는 사용자 입력 및 FM 응답을 감지하고 차단하는 데 도움이 됩니다. 예를 들어 뱅킹 도우미를 설계할 때는 투자 조언과 관련된 주제를 피하도록 설계할 수 있습니다.
책임 있는 AI 정책에 따라 유해한 멀티모달 콘텐츠 필터링
Guardrails는 유해한 텍스트 및 이미지 콘텐츠에 대해 구성 가능한 임계값을 포함하는 콘텐츠 필터를 제공합니다. 보호 장치는 증오 발언, 모욕, 성적, 폭력, 위법 행위(범죄 행위 포함) 등의 주제를 포함하는 유해 콘텐츠를 필터링하고 프롬프트 공격(프롬프트 인젝션 및 탈옥)으로부터 보호하는 데 도움이 됩니다. 바람직하지 않거나 유해할 수 있는 이미지 콘텐츠를 탐지하고 필터링하는 기능은 현재 증오, 모욕, 성적 및 폭력 범주에 대해 평가판으로 제공되며, 미세 조정된 FM을 비롯한 이미지를 지원하는 Amazon Bedrock의 모든 FM에서 지원됩니다. 콘텐츠 필터는 사용자 입력과 모델 응답을 모두 자동으로 평가하여 바람직하지 않거나 유해할 수 있는 콘텐츠를 탐지하고 방지하도록 돕습니다. 예를 들어 전자 상거래 사이트의 온라인 도우미를 설계할 때 증오 발언이나 욕설과 같은 부적절한 언어를 사용하지 않도록 설계할 수 있습니다.
PII와 같은 민감한 정보를 수정하여 개인 정보 보호
Guardrails를 사용하면 사용자 입력 및 FM 응답에서 개인 식별 정보(PII)와 같은 민감한 내용을 감지할 수 있습니다. 사전 정의된 PII 목록에서 선택하거나 정규식(RegEx)을 사용하여 사용자 지정 민감 정보 유형을 정의할 수 있습니다. 사용 사례에 따라 민감한 정보가 포함된 입력을 선택적으로 거부하거나 FM 응답에서 삭제할 수 있습니다. 예를 들어 고객 센터 고객과 에이전트의 대화 내용을 요약할 때 사용자의 개인 정보를 수정할 수 있습니다.
다음 단계
오늘 원하는 내용을 찾으셨나요?
페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내 주세요.