Galileo,作為業界領先的企業級生成式AI解決方案供應商,近日發佈了最新的 「幻覺指數」(Hallucination Index)。
本次評估框架,聚焦于檢索增強生成(RAG)技術,對OpenAI、Anthropic、Google及Meta等在內的22個主流生成式AI大型語言模型(LLM),進行了全面剖析。與去年相比,今年的「幻覺指數」顯著擴容,新增了11個模型,反映出了過去八個月間,開源與閉源LLM領域的蓬勃發展與快速增長態勢。
Galileo CEO兼聯合創始人Vikram Chatterji指出「在日新月異的AI領域,開發者與企業正面臨一項重大挑戰:如何有效利用生成式AI的強大功能,同時兼顧成本效益、精准度與可靠性。遺憾的是,當前的評估基準多以學術場景為基礎,而非現實世界的應用需求。」
Galileo採用的「幻覺指數」,引入了上下文依從性(context adherence)這一核心評估指標,該指標通過檢驗模型在不同輸入長度(從1,000到100,000個上下文詞匯)下,所出現的輸出不準確性。此評估方法旨在為企業提供寶貴的洞見,助力其在AI部署過程中,就成本效益與性能表現之間,做出更加明智的權衡決策。
該指數的主要發現成果包括:
該指數還揭示了LLM領域的幾大顯著趨勢:
結語
隨著AI行業不斷努力攻克生成式AI產品中出現的幻覺問題,Galileo推出的「幻覺指數」,能夠讓企業在特定需求與預算的限制下,找到合適的模型,為他們提供極具價值的指引與洞見。同時,還反映出技術的發展不僅僅依賴於規模,更強調設計的智慧和成本效益的平衡。此外,全球範圍內的競爭加劇,也意味著未來會有更多創新和優化的AI模型湧現。