阿里巴巴 Qwen QwQ-32B:強化學習規模化的突破 – 李梓敬 –

阿里巴巴 Qwen QwQ-32B:強化學習規模化的突破

阿里巴巴 Qwen 團隊近日發佈 QwQ-32B,這是一款擁有 320 億參數的人工智慧(AI)模型,其表現堪比規模更大的 DeepSeek-R1,展現了強化學習(Reinforcement Learning, RL)在基礎模型上的潛力。

技術突破與性能表現

QwQ-32B 成功整合了智能代理(Agent)能力,使其能夠進行批判性思考、使用工具並根據環境回饋調整推理。阿里巴巴團隊指出,相較於傳統的預訓練與後訓練方法,擴展 RL 可以顯著提升模型的推理能力

在多項基準測試(AIME24、LiveCodeBench、LiveBench、IFEval 和 BFCL)中,QwQ-32B 的表現接近 DeepSeek-R1(擁有 6710 億參數,其中 37 億參數被啟用),證明了 RL 在縮小模型規模與性能之間差距的潛力。例如:

  • AIME24 測試:QwQ-32B 獲得 79.5 分,接近 DeepSeek-R1 的 79.8 分,顯著領先 OpenAI o1-mini(63.6 分)。
  • LiveCodeBench 測試:QwQ-32B 取得 63.4 分,僅略遜於 DeepSeek-R1 的 65.9 分,但顯著超越其他對手。
  • 其他測試中,QwQ-32B 亦展現卓越的數學推理、程式編碼與通用問題解決能力。

強化學習的多階段實施

Qwen 團隊採用了冷啟動(Cold-Start)檢查點與多階段 RL 訓練策略。第一階段專注於數學與編碼任務,透過準確性驗證器與程式執行伺服器提升性能。第二階段則擴展至通用能力,結合基於規則的驗證與獎勵模型,在不影響數學與編碼表現的前提下,增強指令理解與智能代理能力。

開源與未來發展

QwQ-32B 以 Apache 2.0 授權開源,可透過 Hugging FaceModelScope 取得,並可在 Qwen Chat 上使用。阿里巴巴計劃持續推進 RL 在長期推理(Long-Horizon Reasoning)中的應用,朝向通用人工智慧(AGI)邁進