Google發佈Gemini 1.5：可處理100萬token上下文

Published by Wong suiwanjoe at 21/02/2024

Tags

Google最近發佈了他們最新的AI模型Gemini 1.5，具備高達100萬token上下文窗口的“試驗性”功能。

Gemini 1.5的新功能，包括能夠輕鬆處理長達100萬token的文本段落，從而更深入地理解上下文及其含義。相比之下，之前的AI系統如Claude 2.1和GPT-4 Turbo，就有些相形見絀了，它們的token處理上限分別是20萬和12.8萬。

Google研究人員在一篇技術文檔中表示「Gemini 1.5 Pro在跨模式的長上下文檢索中，實現了近乎完美的回憶功能。這一突破不僅提升了長文檔QA、長視頻QA，和長上下文ASR的最新水平，還在一系列參數基準上，達到了或超越了Gemini 1.0 Ultra的先進水平。」

Google最新模型的效率提升，主要歸功於創新式的Mixture-of-Experts (MoE)架構。

Google DeepMind 的行政總裁 Demis Hassabis解釋說：「傳統的Transformer功能就像一個大型的神經網絡，而MoE模型則是被分解成更小的‘專家’神經網絡。」這種架構讓模型能夠根據輸入內容的類型，選擇性地激活與其最相關的專家路徑，從而極大地提高了模型的效率。

為了證明Gemini 1.5的強大功能，Google展示了其在處理阿波羅11號飛行記錄（包含32.6914萬token），和啞劇電影（包含68.4萬token）時的表現。在這些示例中，Gemini 1.5不僅能夠準確理解上下文，還能針對具體問題，給出精確的回答。

目前，Google正在向開發者和企業，提供免費的Gemini 1.5有限預覽版，其中包括100萬個token的上下文窗口功能。未來，這一功能將逐步向公眾開放，同時還將推出12.8萬個token版本，並公佈定價細節。

儘管100萬token的功能目前仍處於試驗階段，但如果Gemini 1.5能夠兌現其早期承諾的功能，那麼它有望成為AI理解現實世界中、複雜文本能力的新標杆。