Anthropic 與 Google：誰將率先擺脫AI幻覺？

Published by Wong suiwanjoe at 01/08/2024

Tags

Galileo，作為業界領先的企業級生成式AI解決方案供應商，近日發佈了最新的「幻覺指數」(Hallucination Index)。

本次評估框架，聚焦于檢索增強生成（RAG）技術，對OpenAI、Anthropic、Google及Meta等在內的22個主流生成式AI大型語言模型（LLM），進行了全面剖析。與去年相比，今年的「幻覺指數」顯著擴容，新增了11個模型，反映出了過去八個月間，開源與閉源LLM領域的蓬勃發展與快速增長態勢。

Galileo CEO兼聯合創始人Vikram Chatterji指出「在日新月異的AI領域，開發者與企業正面臨一項重大挑戰：如何有效利用生成式AI的強大功能，同時兼顧成本效益、精准度與可靠性。遺憾的是，當前的評估基準多以學術場景為基礎，而非現實世界的應用需求。」

Galileo採用的「幻覺指數」，引入了上下文依從性（context adherence）這一核心評估指標，該指標通過檢驗模型在不同輸入長度（從1,000到100,000個上下文詞匯）下，所出現的輸出不準確性。此評估方法旨在為企業提供寶貴的洞見，助力其在AI部署過程中，就成本效益與性能表現之間，做出更加明智的權衡決策。

該指數的主要發現成果包括：

Anthropic的Claude 3.5 Sonnet整體表現最佳，無論是在短、中還是長文本場景中，都表現穩定，近乎完美。
Google 的 Gemini 1.5 Flash 在成本效益方面表現最佳，在各類任務中表現優異。
阿裡巴巴的通義千問Qwen2-72B-Instruct，以表現最佳的開源模型脫穎而出，特別是在短至中長度文本場景中，表現卓越。

該指數還揭示了LLM領域的幾大顯著趨勢：

開源模型正在快速縮小與閉源模型間的差距，以更低的成本提供優化的「幻覺」處理能力。
當前的 RAG LLM ，在處理擴展上下文長度方面，得到了顯著改進，不僅保持了高質量輸出，還確保了準確性。
輕量模型憑藉高效設計策略，在某些場景下反而能超越大型模型，證明了在LLM領域，智慧設計往往比單純追求規模更為重要。
值得注意的是，來自美國以外的優秀競爭者，如Mistral的Mistral-large及阿裡巴巴的Qwen2-72B-Instruct等，紛紛嶄露頭角，彰顯了全球範圍內LLM開發競爭的日益白熱化。

結語

隨著AI行業不斷努力攻克生成式AI產品中出現的幻覺問題，Galileo推出的「幻覺指數」，能夠讓企業在特定需求與預算的限制下，找到合適的模型，為他們提供極具價值的指引與洞見。同時，還反映出技術的發展不僅僅依賴於規模，更強調設計的智慧和成本效益的平衡。此外，全球範圍內的競爭加劇，也意味著未來會有更多創新和優化的AI模型湧現。