OpenAI 正在採用創新的「紅隊測試」(Red Teaming)方法來加強人工智能(AI)的安全性。這種方法透過人類專家與 AI 系統的合作,系統化地揭示潛在的風險與漏洞。過去,OpenAI 主要依靠人工測試,例如在 2022 年針對 DALL·E 2 進行的風險評估。然而,隨著技術的進步,OpenAI 現在整合了自動化與混合方法,進一步擴展與優化測試範疇。
官方表示,自動化方法能更高效地識別模式與錯誤,並訓練模型變得更安全。為此,OpenAI 公佈了兩份重要文件:一份白皮書闡述如何與外部專家合作進行紅隊測試,另一份研究則介紹了一種新穎的自動化紅隊測試方法。此方法結合多步強化學習與多樣化的獎勵機制,提升了測試策略的多樣性與效果。
紅隊測試的核心包括四步驟:
此外,OpenAI 的自動化紅隊測試方法能生成大量場景,例如「違法建議」,有效補充人類測試的不足。然而,紅隊測試也存在限制,包括僅能捕捉特定時期的風險,且可能無意中暴露敏感漏洞。因此,OpenAI 強調需要負責的披露機制及更廣泛的公眾參與,以確保 AI 技術與社會價值一致。