阿里巴巴 Qwen QwQ-32B：強化學習規模化的突破

Published by Wong suiwanjoe at 12/03/2025

技術突破與性能表現

QwQ-32B 成功整合了智能代理（Agent）能力，使其能夠進行批判性思考、使用工具並根據環境回饋調整推理。阿里巴巴團隊指出，相較於傳統的預訓練與後訓練方法，擴展 RL 可以顯著提升模型的推理能力。

在多項基準測試（AIME24、LiveCodeBench、LiveBench、IFEval 和 BFCL）中，QwQ-32B 的表現接近 DeepSeek-R1（擁有 6710 億參數，其中 37 億參數被啟用），證明了 RL 在縮小模型規模與性能之間差距的潛力。例如：

AIME24 測試：QwQ-32B 獲得 79.5 分，接近 DeepSeek-R1 的 79.8 分，顯著領先 OpenAI o1-mini（63.6 分）。
LiveCodeBench 測試：QwQ-32B 取得 63.4 分，僅略遜於 DeepSeek-R1 的 65.9 分，但顯著超越其他對手。
其他測試中，QwQ-32B 亦展現卓越的數學推理、程式編碼與通用問題解決能力。

強化學習的多階段實施

Qwen 團隊採用了冷啟動（Cold-Start）檢查點與多階段 RL 訓練策略。第一階段專注於數學與編碼任務，透過準確性驗證器與程式執行伺服器提升性能。第二階段則擴展至通用能力，結合基於規則的驗證與獎勵模型，在不影響數學與編碼表現的前提下，增強指令理解與智能代理能力。

開源與未來發展

QwQ-32B 以 Apache 2.0 授權開源，可透過 Hugging Face 與 ModelScope 取得，並可在 Qwen Chat 上使用。阿里巴巴計劃持續推進 RL 在長期推理（Long-Horizon Reasoning）中的應用，朝向通用人工智慧（AGI）邁進。