Amazon Bedrock 防護機制

實施根據您的應用程式需求和負責任的 AI 政策自訂的保護

利用防護機制建置負責任 AI 應用程式

Amazon Bedrock 防護機制提供可設定的安全措施,協助安全地大規模建置生成式 AI 應用程式。透過在所有支援的基礎模型 (FM) 中採用一致且標準的方法,防護機制提供了業界領先的安全保護:

  • 使用自動推理來協助防止幻覺造成的事實錯誤 – 這是第一個也是唯一具有此功能的生成式 AI 保護措施
  • 封鎖高達 85% 以上不需要和有害的內容
  • 篩選來自擷取增強生成 (RAG) 和摘要使用案例模型的超過 75% 幻覺回應

為各種生成式 AI 應用程式帶來一致水平的安全

防護機制是主要雲端供應商提供的唯一負責任 AI 功能,可協助您在單一解決方案中為生成式 AI 應用程式建置和自訂安全性、隱私權和真實性保障措施。防護機制有助於根據特定於使用案例的政策評估使用者輸入和模型回應,並在 FM 原生提供的保護之上提供額外的保護措施層。防護機制可與各種模型搭配使用,包括 Amazon Bedrock 內支援的 FM、微調模型,以及 Amazon Bedrock 以外的自我託管模型。 使用者輸入和模型輸出可以透過 ApplyGuardrail API 獨立評估,適用於第三方和自我託管模型。  防護機制也可與 Amazon Bedrock 代理程式和 Amazon Bedrock 知識庫整合,以建置符合負責任 AI 政策的更加安全的生成式 AI 應用程式。

UI 螢幕擷取畫面

使用關聯式接地檢查偵測模型回應中的幻覺

客戶需要部署真實且值得信賴的生成式 AI 應用程式,以維持和增加使用者的信任。然而,FM 可能會由於幻覺而產生不正確的資訊,即偏離來源資訊、混淆多條資訊或發明新資訊。Amazon Bedrock 防護機制支援關聯式接地檢查,以協助偵測和篩選幻覺,檢查回應在來源資訊中是否不接地 (例如實際上不準確或是新資訊),且與使用者的查詢或指示無關。關聯式接地檢查可偵測 RAG、摘要和對話應用程式的幻覺,其中來源資訊可用作參考來驗證模型回應。

UI 螢幕擷取畫面

自動推理檢查有助於防止幻覺造成的事實錯誤,並提供可驗證的準確性

Amazon Bedrock 防護機制中的自動推理檢查 (預覽版) 是第一個也是唯一的生成式 AI 保護措施,它利用邏輯準確且可驗證的推理來解釋回應正確的原因,從而協助防止幻覺造成的事實錯誤。自動推理透過使用可靠的數學技術來驗證、糾正和邏輯地解釋所產生的資訊,協助減輕幻覺 — 確保輸出與已知事實一致,而不是基於虛構或不一致的資料。開發人員可以透過上傳定義正確解決方案空間的現有文件 (例如人力資源指南或操作手冊) 來建立自動推理政策。然後,Amazon Bedrock 會產生獨特的自動推理政策,並指引使用者進行測試和完善。若要根據自動推理政策驗證產生的內容,使用者必須在防護機制中啟用該政策,並使用唯一 Amazon Resource Names (ARN) 清單來進行設定。此邏輯式演算法驗證程序可確保模型產生的資訊與已知事實相符,而不是基於虛構或不一致的資料。這些檢查可以從生成式 AI 模型中提供可證明的真實回應,助力軟體供應商提高其應用程式在人力資源、財務、法律、合規等使用案例中的可靠性。

影片

在生成式 AI 應用程式中封鎖不需要的主題

組織領導者可識別需要管理生成式 AI 應用程式內的互動,以提供相關且安全的使用者體驗。使用者希望進一步自訂互動,以保持專注於與其業務相關的主題,並符合公司政策。防護機制可協助您使用簡短的自然語言,描述在應用程式環境中定義一組要避免的主題。防護機制可協助偵測並封鎖屬於受限制主題的使用者輸入內容和 FM 回應。例如,可以設計銀行助理以避免與投資建議相關的主題。

UI 螢幕擷取畫面

根據您負責任 AI 原則篩選有害的多模態內容

防護機制針對有害的文字和影像內容提供可設定臨界值的內容篩選器。這項保護措施有助於篩選含有仇恨言論、羞辱性、性、暴力和不當行為 (包括犯罪活動) 等主題的有害內容,並幫助防止提示攻擊 (提示注入和破解)。目前預覽版中提供偵測和篩選不良及潛在有害影像內容的功能,其中涵蓋仇恨、羞辱性、性和暴力類別,並支援 Amazon Bedrock 中支援影像的所有 FM (包括微調 FM)。內容篩選器會自動評估使用者輸入和模型回應,以偵測並協助防止不良和潛在有害的內容。例如,電子商務網站可以設計在線助理,以避免使用不當的語言,例如仇恨言論或羞辱。

UI 螢幕擷取畫面

編輯敏感資訊 (例如 PII) 以保護隱私權

防護機制可協助您偵測使用者輸入內容和 FM 回應中的個人身分識別資訊 (PII) 等敏感內容。可以從預先定義的 PII 清單中選取,也可以使用規則表達式 (RegEx) 定義自訂的敏感資訊類型。依據使用場景,您可以有選擇地拒絕包含敏感資訊的輸入內容,或在 FM 回應中編輯這些資訊。例如,您可以編輯使用者的個人資訊,同時根據呼叫中心的客戶和客服人員對話記錄產生摘要。

UI 螢幕擷取畫面