阿里巴巴(BABA)近日宣佈推出其新型大語言模型QwQ-32B,該模型僅有320億參數,但在性能上已能媲美擁有6710億參數的DeepSeek-R1(其中370億被啟動),甚至在某些測試中超越對方。此舉使得阿里巴巴的股價上漲超過7%,進一步推動了AI大模型從“量變”向“質變”的轉型。
QwQ-32B模型的發佈,彰顯了小參數模型也能實現高性能。阿里Qwen團隊指出,該成果展示了將強化學習(RL)應用於大規模預訓練模型的有效性,表明這種方法或許是通向通用人工智慧的可行路徑。此外,QwQ-32B不僅具備強大的基礎推理能力,還融合了與Agent相關的能力,使其能夠在使用工具時進行批判性思考,並根據環境回饋調整推理過程。
根據官方測試結果,QwQ-32B在多項關鍵評測中表現卓越。在AIME24數學能力評測中,QwQ-32B與DeepSeek-R1表現相當,並遠超o1-mini等同類模型。在LiveCodeBench代碼能力評測中,表現同樣與DeepSeek-R1相當。而在“最難LLMs評測榜”LiveBench上,QwQ-32B得分超越DeepSeek-R1,在IFEval指令遵循能力評測中,QwQ-32B同樣優於DeepSeek-R1。在BFCL測試中,QwQ-32B的表現也超過了DeepSeek-R1。QwQ-32B的LiveBench評分約為72.5分,成本僅為$0.25,相比之下,R1的評分約為70分,成本為$2.50,而o3-mini的評分為75分,成本高達$5.00。這表明,QwQ-32B在性能與成本之間取得了良好的平衡。
QwQ-32B的卓越性能主要歸功於其採用的大規模強化學習方法。阿里團隊在冷啟動的基礎上,開展了分階段的強化學習訓練,初始階段重點針對數學和編程任務進行RL訓練,通過驗證生成答案的正確性和代碼執行的成功與否來提供回饋;而在擴展階段,增加了對通用能力的RL訓練,使用通用獎勵模型和基於規則的驗證器,以提升模型的綜合能力。研究表明,隨著RL訓練輪次的增加,模型在數學和編程領域的表現持續提升,驗證了這一方法的有效性。
QwQ-32B現已在Hugging Face和ModelScope平臺上開源,採用Apache 2.0協議,用戶亦可通過Qwen Chat體驗這一強大模型。科技自媒體評論稱,此次開源具有重要意義,展示了RLHF路線的潛力,打破了對AI模型發展的悲觀預期。阿里巴巴最近還宣佈將在未來三年內投資超過3800億元用於雲和AI硬體基礎設施建設,目標是超越過去十年的總投入。QwQ-32B的推出與阿里的AI戰略高度一致,標誌著其在全球頂尖開源模型中的地位進一步鞏固。未來,阿里將繼續推出更大規模的模型,以不斷推動AI技術的發展。
登入uSMART HK APP之後,從頁面最右上方點擊選擇「搜索」,輸入標的代碼,如「09988.HK」,可進入詳情頁瞭解交易詳情和歷史走勢,點擊右下角「交易」,選擇「買入/賣出」功能,最後填寫交易條件後送出訂單即可。
(圖源:uSMART HK)