阿里巴巴開源QwQ-32B，股價大漲超7%

uSMART盈立智投 03-06 11:12

阿里巴巴（BABA）近日宣佈推出其新型大語言模型QwQ-32B，該模型僅有320億參數，但在性能上已能媲美擁有6710億參數的DeepSeek-R1（其中370億被啟動），甚至在某些測試中超越對方。此舉使得阿里巴巴的股價上漲超過7%，進一步推動了AI大模型從“量變”向“質變”的轉型。

QwQ-32B模型的發佈，彰顯了小參數模型也能實現高性能。阿里Qwen團隊指出，該成果展示了將強化學習（RL）應用於大規模預訓練模型的有效性，表明這種方法或許是通向通用人工智慧的可行路徑。此外，QwQ-32B不僅具備強大的基礎推理能力，還融合了與Agent相關的能力，使其能夠在使用工具時進行批判性思考，並根據環境回饋調整推理過程。

根據官方測試結果，QwQ-32B在多項關鍵評測中表現卓越。在AIME24數學能力評測中，QwQ-32B與DeepSeek-R1表現相當，並遠超o1-mini等同類模型。在LiveCodeBench代碼能力評測中，表現同樣與DeepSeek-R1相當。而在“最難LLMs評測榜”LiveBench上，QwQ-32B得分超越DeepSeek-R1，在IFEval指令遵循能力評測中，QwQ-32B同樣優於DeepSeek-R1。在BFCL測試中，QwQ-32B的表現也超過了DeepSeek-R1。QwQ-32B的LiveBench評分約為72.5分，成本僅為$0.25，相比之下，R1的評分約為70分，成本為$2.50，而o3-mini的評分為75分，成本高達$5.00。這表明，QwQ-32B在性能與成本之間取得了良好的平衡。

QwQ-32B的卓越性能主要歸功於其採用的大規模強化學習方法。阿里團隊在冷啟動的基礎上，開展了分階段的強化學習訓練，初始階段重點針對數學和編程任務進行RL訓練，通過驗證生成答案的正確性和代碼執行的成功與否來提供回饋；而在擴展階段，增加了對通用能力的RL訓練，使用通用獎勵模型和基於規則的驗證器，以提升模型的綜合能力。研究表明，隨著RL訓練輪次的增加，模型在數學和編程領域的表現持續提升，驗證了這一方法的有效性。

QwQ-32B現已在Hugging Face和ModelScope平臺上開源，採用Apache 2.0協議，用戶亦可通過Qwen Chat體驗這一強大模型。科技自媒體評論稱，此次開源具有重要意義，展示了RLHF路線的潛力，打破了對AI模型發展的悲觀預期。阿里巴巴最近還宣佈將在未來三年內投資超過3800億元用於雲和AI硬體基礎設施建設，目標是超越過去十年的總投入。QwQ-32B的推出與阿里的AI戰略高度一致，標誌著其在全球頂尖開源模型中的地位進一步鞏固。未來，阿里將繼續推出更大規模的模型，以不斷推動AI技術的發展。

如何在uSMART上進行投資交易

登入uSMART HK APP之後，從頁面最右上方點擊選擇「搜索」，輸入標的代碼，如「09988.HK」，可進入詳情頁瞭解交易詳情和歷史走勢，點擊右下角「交易」，選擇「買入/賣出」功能，最後填寫交易條件後送出訂單即可。

（圖源：uSMART HK）

如何在uSMART上進行投資交易

更多內容

站點服務

關於

協議聲明