輕量級大語言模型相繼湧現,AI競爭升溫? – 李梓敬 –

輕量級大語言模型相繼湧現,AI競爭升溫?

上個月,美國科技公司OpenAI,推出了文本到視頻的生成模型Sora。此後,越來越多的中國公司,也開始著手開發輕量級大語言模型,為全球人工智能競爭格局,帶來了新變化。

輕量級模型,也被稱為較小的大型模型,指的是對參數需求更小的模型。這意味著它們相較於大型模型而言,處理和生成文本的能力會受到限制。

簡單來說,這些小的模型就像緊湊型汽車,而大模型則像運動型、多用途的豪華汽車。

今年二月,中國人工智能初創公司面壁智能(ModelBest Inc),推出了其最新的輕量級大語言模型,引起了人工智能行業的廣泛關注。

該模型名為MiniCPM-2B,參數規模為 20 億,遠小於OpenAI的GPT-4.0可以處理的1.7萬億參數。

去年十二月,美國科技巨頭微軟發佈了Phi-2,雖然參數規模僅為27億,但這款小型語言模型,能夠進行常識推理和語言理解。

面壁智能的CEO李大海表示「新模型在開源通用基準方面的性能,接近於法國人工智能公司Mistral的Mistral-7B,在中文、數學和編碼方面具有更強的能力。該模型的整體性能,超過了一些參數達到100億級別的同類大型模型。」

李大海還表示「不論是大型還是較小的大語言模型,都有各自的優勢,這取決於任務的具體要求,和它們的性能限制,但在人工智能蓬勃發展的環境中,中國公司可能會在小模型中找到一條出路。」

360集團創始人兼董事長周鴻禕,此前在接受採訪時也表示,要在當下打造出一個超越GPT-4.0的通用大模型,可能具有挑戰性。不過,雖然GPT-4.0目前「無所不知,但它並沒有深耕。」

他說「如果我們可以訓練出,具有特定行業數據的模型,並將其與行業內的其他工具整合起來,從而在該行業中取得卓越成績。這樣的模型不僅具備智能化,還將具備獨特的業務知識,從而變得無所不能。」

李大海表示,如果這樣的輕量級模型能夠應用於產業中,其商業價值將會巨大。他說「如果模型的參數規模被壓縮,運行時的計算過程就會減少,同時,這也意味著對處理器的性能要求會降低,並且響應時間也會縮短。隨著這類終端模型的普及,未來更多電子設備,如手機等,推理成本將會進一步降低。」