您正在瀏覽的是香港網站,香港證監會BJA907號,投資有風險,交易需謹慎
阿里巴巴開源QwQ-32B,股價大漲超7%
uSMART盈立智投 03-06 11:12

阿里巴巴(BABA)近日宣佈推出其新型大語言模型QwQ-32B,該模型僅有320億參數,但在性能上已能媲美擁有6710億參數的DeepSeek-R1(其中370億被啟動),甚至在某些測試中超越對方。此舉使得阿里巴巴的股價上漲超過7%,進一步推動了AI大模型從“量變”向“質變”的轉型。

 

QwQ-32B模型的發佈,彰顯了小參數模型也能實現高性能。阿里Qwen團隊指出,該成果展示了將強化學習(RL)應用於大規模預訓練模型的有效性,表明這種方法或許是通向通用人工智慧的可行路徑。此外,QwQ-32B不僅具備強大的基礎推理能力,還融合了與Agent相關的能力,使其能夠在使用工具時進行批判性思考,並根據環境回饋調整推理過程。

 

根據官方測試結果,QwQ-32B在多項關鍵評測中表現卓越。在AIME24數學能力評測中,QwQ-32B與DeepSeek-R1表現相當,並遠超o1-mini等同類模型。在LiveCodeBench代碼能力評測中,表現同樣與DeepSeek-R1相當。而在“最難LLMs評測榜”LiveBench上,QwQ-32B得分超越DeepSeek-R1,在IFEval指令遵循能力評測中,QwQ-32B同樣優於DeepSeek-R1。在BFCL測試中,QwQ-32B的表現也超過了DeepSeek-R1。QwQ-32B的LiveBench評分約為72.5分,成本僅為$0.25,相比之下,R1的評分約為70分,成本為$2.50,而o3-mini的評分為75分,成本高達$5.00。這表明,QwQ-32B在性能與成本之間取得了良好的平衡。

 

QwQ-32B的卓越性能主要歸功於其採用的大規模強化學習方法。阿里團隊在冷啟動的基礎上,開展了分階段的強化學習訓練,初始階段重點針對數學和編程任務進行RL訓練,通過驗證生成答案的正確性和代碼執行的成功與否來提供回饋;而在擴展階段,增加了對通用能力的RL訓練,使用通用獎勵模型和基於規則的驗證器,以提升模型的綜合能力。研究表明,隨著RL訓練輪次的增加,模型在數學和編程領域的表現持續提升,驗證了這一方法的有效性。

 

QwQ-32B現已在Hugging Face和ModelScope平臺上開源,採用Apache 2.0協議,用戶亦可通過Qwen Chat體驗這一強大模型。科技自媒體評論稱,此次開源具有重要意義,展示了RLHF路線的潛力,打破了對AI模型發展的悲觀預期。阿里巴巴最近還宣佈將在未來三年內投資超過3800億元用於雲和AI硬體基礎設施建設,目標是超越過去十年的總投入。QwQ-32B的推出與阿里的AI戰略高度一致,標誌著其在全球頂尖開源模型中的地位進一步鞏固。未來,阿里將繼續推出更大規模的模型,以不斷推動AI技術的發展。

 

如何在uSMART上進行投資交易

登入uSMART HK APP之後,從頁面最右上方點擊選擇「搜索」,輸入標的代碼,如「09988.HK」,可進入詳情頁瞭解交易詳情和歷史走勢,點擊右下角「交易」,選擇「買入/賣出」功能,最後填寫交易條件後送出訂單即可。

 

(圖源:uSMART HK)

關注uSMART
FacebookTwitterInstagramYouTube 追蹤我們,查閱更多實時財經市場資訊。想和全球志同道合的人交流和發現投資的樂趣?加入 uSMART投資群 並分享您的獨特觀點!立刻掃碼下載uSMART APP!
重要提示及免責聲明
盈立證券有限公司(「盈立」)在撰冩這篇文章時是基於盈立的內部研究和公開第三方資訊來源。儘管盈立在準備這篇文章時已經盡力確保內容為準確,但盈立不保證文章資訊的準確性、及時性或完整性,並對本文中的任何觀點不承擔責任。觀點、預測和估計反映了盈立在文章發佈日期的評估,並可能發生變化。盈立無義務通知您或任何人有關任何此類變化。您必須對本文中涉及的任何事項做出獨立分析及判斷。盈立及盈立的董事、高級人員、僱員或代理人將不對任何人因依賴本文中的任何陳述或文章內容中的任何遺漏而遭受的任何損失或損害承擔責任。文章內容只供參考,並不構成任何證券、金融產品或工具的要約、招攬、建議、意見或保證。
投資涉及風險,證券的價值和收益可能會上升或下降。往績數字並非預測未來表現的指標。
uSMART
輕鬆入門 投資財富增值
開戶