Anthropic 與 Google:誰將率先擺脫AI幻覺? – 李梓敬 –

Anthropic 與 Google:誰將率先擺脫AI幻覺?

Galileo,作為業界領先的企業級生成式AI解決方案供應商,近日發佈了最新的 「幻覺指數」(Hallucination Index)。

本次評估框架,聚焦于檢索增強生成(RAG)技術,對OpenAI、Anthropic、Google及Meta等在內的22個主流生成式AI大型語言模型(LLM),進行了全面剖析。與去年相比,今年的「幻覺指數」顯著擴容,新增了11個模型,反映出了過去八個月間,開源與閉源LLM領域的蓬勃發展與快速增長態勢。

Galileo CEO兼聯合創始人Vikram Chatterji指出「在日新月異的AI領域,開發者與企業正面臨一項重大挑戰:如何有效利用生成式AI的強大功能,同時兼顧成本效益、精准度與可靠性。遺憾的是,當前的評估基準多以學術場景為基礎,而非現實世界的應用需求。」

Galileo採用的「幻覺指數」,引入了上下文依從性(context adherence)這一核心評估指標,該指標通過檢驗模型在不同輸入長度(從1,000到100,000個上下文詞匯)下,所出現的輸出不準確性。此評估方法旨在為企業提供寶貴的洞見,助力其在AI部署過程中,就成本效益與性能表現之間,做出更加明智的權衡決策。

該指數的主要發現成果包括:

  • Anthropic的Claude 3.5 Sonnet整體表現最佳,無論是在短、中還是長文本場景中,都表現穩定,近乎完美。
  • Google 的 Gemini 1.5 Flash 在成本效益方面表現最佳,在各類任務中表現優異。
  • 阿裡巴巴 的 通義千問Qwen2-72B-Instruct, 以表現最佳的開源模型脫穎而出,特別是在短至中長度文本場景中,表現卓越。

該指數還揭示了LLM領域的幾大顯著趨勢:

  • 開源模型正在快速縮小與閉源模型間的差距,以更低的成本提供優化的「幻覺」處理能力。
  • 當前的 RAG LLM ,在處理擴展上下文長度方面,得到了顯著改進,不僅保持了高質量輸出,還確保了準確性。
  • 輕量模型憑藉高效設計策略,在某些場景下反而能超越大型模型,證明了在LLM領域,智慧設計往往比單純追求規模更為重要。
  • 值得注意的是,來自美國以外的優秀競爭者,如Mistral的Mistral-large及阿裡巴巴的Qwen2-72B-Instruct等,紛紛嶄露頭角,彰顯了全球範圍內LLM開發競爭的日益白熱化。

結語

隨著AI行業不斷努力攻克生成式AI產品中出現的幻覺問題,Galileo推出的「幻覺指數」,能夠讓企業在特定需求與預算的限制下,找到合適的模型,為他們提供極具價值的指引與洞見。同時,還反映出技術的發展不僅僅依賴於規模,更強調設計的智慧和成本效益的平衡。此外,全球範圍內的競爭加劇,也意味著未來會有更多創新和優化的AI模型湧現。