阿里巴巴 Qwen 團隊近日發佈 QwQ-32B,這是一款擁有 320 億參數的人工智慧(AI)模型,其表現堪比規模更大的 DeepSeek-R1,展現了強化學習(Reinforcement Learning, RL)在基礎模型上的潛力。
QwQ-32B 成功整合了智能代理(Agent)能力,使其能夠進行批判性思考、使用工具並根據環境回饋調整推理。阿里巴巴團隊指出,相較於傳統的預訓練與後訓練方法,擴展 RL 可以顯著提升模型的推理能力。
在多項基準測試(AIME24、LiveCodeBench、LiveBench、IFEval 和 BFCL)中,QwQ-32B 的表現接近 DeepSeek-R1(擁有 6710 億參數,其中 37 億參數被啟用),證明了 RL 在縮小模型規模與性能之間差距的潛力。例如:
Qwen 團隊採用了冷啟動(Cold-Start)檢查點與多階段 RL 訓練策略。第一階段專注於數學與編碼任務,透過準確性驗證器與程式執行伺服器提升性能。第二階段則擴展至通用能力,結合基於規則的驗證與獎勵模型,在不影響數學與編碼表現的前提下,增強指令理解與智能代理能力。
QwQ-32B 以 Apache 2.0 授權開源,可透過 Hugging Face 與 ModelScope 取得,並可在 Qwen Chat 上使用。阿里巴巴計劃持續推進 RL 在長期推理(Long-Horizon Reasoning)中的應用,朝向通用人工智慧(AGI)邁進。