您正在瀏覽的是香港網站,香港證監會BJA907號,投資有風險,交易需謹慎
市場資訊

市場資訊

首頁市場資訊資訊詳情

ChatGPT升級後亂殺老師傅,百度文心一言能抗住壓力嗎?

uSMART盈立智投 03-16 11:10

來源:雷科技

一夜之間,ChatGPT「開眼了」。

4 個月前發佈 ChatGPT 最初就只支持文本輸入和文本輸出,也就是進行文字聊天。然而在 GPT-4 發佈之後,ChatGPT 甚至可以看懂一些梗圖,並解釋「梗」在哪。但 GPT-4 升級遠不止如此。

美國當地時間 3 月 14 日,OpenAI 正式發佈了多模態大型語言模型 GPT-4。OpenAI 在介紹中表示,雖然 GPT-4 在許多現實世界場景中的能力不如人類,但在各種專業和學術基準上表現出人類水平的表現。

與 ChatGPT 發佈之初基於的 GPT-3.5 大模型相比,OpenAI 宣稱 GPT-4 擁有更強的語言理解能力,在準確度上有了顯著提升,雖然還無法解決「胡說八道」的問題,但出現概率已經降低了 60%。

此外,GPT-4 的訓練語料庫還停留在 2021 年 9 月之前,但對科學、醫學、法律等特定領域進行了知識面的擴充,不僅能在美國統一律師資格考試中取得前列成績,在奧賽、GRE 等考試均取得了很高的分數,甚至 SAT 成績——可以理解爲美國高考成績——已經超過了 90%的考生,跨過哈佛、斯坦福等名校的門檻。

部分考試成績,圖/OpenAI
部分考試成績,圖/OpenAI

同時 GPT-4 的其中一個重點升級是增加了對圖片輸入的支持,有了對圖片進行總結和評論的能力。在官方示例中,GPT-4 就針對去年熱傳的一組圖片進行了解讀,並指出其中的「笑點」。

機翻,圖/OpenAI
機翻,圖/OpenAI

Twitter 上還有用戶獲得圖片輸入測試資格展示了,GPT-4 如何根據冰箱里剩下的食材推薦今日菜譜。不僅是人類的黑話被 ChatGPT「破譯」了,ChatGPT 也第一次「觸碰」到了現實世界,讓 ChatGPT 未來在更多場景的使用成爲了可能。

但需要一提的是,目前圖像識別功能還處於測試階段,暫時不公開使用,僅限部分客戶公司和研究人員使用。但除此之外,GPT-4 的所有升級都已經面向 ChatGPT Plus 用戶和部分 ChatGPT API(應用程序接口)全面開放。

不過,GPT-4 相比 GPT-3.5 到底帶來了多大的進步,又可能會掀起什麼樣的風暴,以及中國的 ChatGPT——特別是即將在 3 月 16 日發佈的百度文心一言,還有趕超的機會嗎?

GPT-4 大大大升級

在 OpenAI 發佈 GPT-4 的直播中,第一個介紹的就是對更長內容的支持——可以直接讀取的 token 數從 4096 個(GPT-3.5)升級到了 32000 個,約等於可以一次性輸入 25000 個英文單詞。

很多普通用戶可能用不上也不理解這項升級的重大意義,但大幅增長的上下文長度將極大擴展 ChatGPT 的推理能力和用例數量,比如可以將患者的全部病史一併輸入,或是將冗長的法律合同輸入,都能減少 ChatGPT 對前後分開內容的「誤讀」,提高輸出內容的準確性和實用性。

OpenAI 也提到,簡單聊天中 GPT-4 升級並不明顯(不包括圖片輸入支持),但當任務的複雜度達到足夠的閾值,GPT-4 將體現出遠比 GPT-3.5 更可靠、更有創造力的表現。

此外,ChatGPT 在 GPT-4 大模型的加持下,不僅能夠生成更具說服力和吸引力的內容,還支持更個性化的需求和聊天風格。官方示例就展示了「蘇格拉底」風格設定下的 GPT-4 老師是如何調教人類學生,一步一步思考並解出方程組「3x + 2y = 7, 9x -4y = 1」的正確答案。

GPT-4,圖/OpenAI
GPT-4,圖/OpenAI

如果對比下基於 GPT-3.5 的 ChatGPT 就能明白它們之間的差距。

我們將同樣的設定和問題輸入 ChatGPT(GPT-3.5),它不僅沒有表現出「蘇格拉底」循循善誘的教導,反而直接給出了推導過程——答案還是錯誤的「x=23/27,y=22/9」。

ChatGPT(GPT-3.5),圖/OpenAI
ChatGPT(GPT-3.5),圖/OpenAI

從過程到結果,GPT-4 至少在教導人類解方程式這件事上吊打了 GPT-3.5,甚至可以說已經很接近人類老師的教導過程。甚至我們可以想象,GPT-4 如果充分學習了魯迅的資料,或許賽博「魯迅」老師也可以成爲所有人的語文老師,甚至是終身導師。

這也引出了另一個升級重點——不同語言的能力。OpenAI 官方承認,GPT 不管從語料庫、基準測試、開發人員都是以英文爲主,故而對英文的理解和輸出能力都勝過其他語言。

但即便如此,在 GPT-4 下,包括中文在內的大部分語言處理能力基本都超過了 GPT-3.5 的英文處理能力。中國版 ChatGPT 的壓力更大了。

不過,儘管 GPT-4 的能力再一次實現了驚人的進步,包括在對抗性事實性評估中的得分比 GPT-3.5 高出 40%,但還是存在一些「一本正經地胡說八道」,即 AI 對事實產生「幻覺」,並出現推理錯誤。

比如之前 ChatGPT(GPT-3.5)回答並流傳出的「林黛玉三打白骨精」,我們在基於 GPT-4 的 Bing Chat 中也進行了測試,雖然提醒了我們這不是原著中的情節,但同樣「虛造」了改編視頻的存在,這一點可以從引用資料中輕易得出結論。

圖/必應
圖/必應

就如 OpenAI CEO 山姆·阿特曼所說,GPT-4 仍然存在缺陷,但它有明顯的改進,相比以前的模型不僅幻覺減少、偏見減少,還更有創意。

另外據 OpenAI 官網介紹,摩根士丹利、多鄰國、By My Eyes 等 6 個企業客戶已經率先使用了 GPT-4,其中大概也包括微軟。

微軟和 OpenAI 又前進了一大步

早在今年 2 月,就有傳聞稱微軟將在當時尚未發佈的 Bing 上集成 GPT-4。事實證明的確如此,Bing 團隊在 GPT-4 正式發佈後就表示:

我們很高興確認 New Bing 基於 GPT-4 運行,這是我們爲搜索定製的。如果您在過去五週內的任何時間使用過新版 Bing,那麼您已經體驗過這個強大模型的早期版本。隨着 OpenAI 對 GPT-4 及更高版本的更新,Bing Chat 也將從中受益。

事實上,微軟德國技術總監也在上週提前透露了 OpenAI 將在本週發佈 GPT-4。而 OpenAI 過去兩年還與微軟一起從頭設計了一臺專用於語言訓練的超級計算機,GPT-4 就是跑在這臺超級計算機上訓練出來的。

再考慮到 2019 年的十億美元投資和今年年初的數十億美元投資,微軟和 OpenAI 很大程度上已經綁爲一體。而 GPT-4 的正式推出再次確立了微軟和 OpenAI 在生成式 AI 上的領先,開發者 Pietro Schirano 就表示:「我不在乎它是不是通用人工智能,GPT-4 是一項令人難以置信的變革性技術。」

圖/Twitter
圖/Twitter

與此同時,ChatGPT 的巨大成功一方面已經吸引了大量的商業應用,包括微軟的 Bing Chat,同時也爲微軟 Azure 雲計算平臺拉來了大量客戶,爲微軟繼續力挺 OpenAI 進行大量的研發和資金投入提供了充足的條件。

這樣的強強聯合,國產 ChatGPT 們還有希望嗎?

國產大模型的差距又被拉大了?

時至今日,沒有人會懷疑 ChatGPT 以及大語言模型的重要性了,包括科技部部長王志剛也在幾周前重點談到了 ChatGPT,指出就像踢足球都是盤帶和射門,但要做到梅西那麼好很難:

ChatGPT 在技術進步上,特別是保證算法的實時性與算法質量的有效性上,非常難。

換句話說,開發一個類似 ChatGPT 的對話機器人不難,但要實現 ChatGPT 同等水平的自然語言理解能力以及實時性,難度極高。

在國內一衆宣稱正在開發類 ChatGPT 中,只有阿里、騰訊、百度對大語言模型進行了大規模且長期的投入,而且百度也是三家之中對於 AI 傾注心血和時間最多的一家。可以說,從技術實力上,百度是目前最有希望在大語言模型上追趕 OpenAI 的中國公司。

圖/百度
圖/百度

日前,百度也已經宣佈將於 3 月 16 日下午召開文心一言發佈會,如果順利,文心一言將成爲國內大公司推出的第一個類 ChatGPT 產品。不過據 WSJ 報道,百度從年前就在緊鑼密鼓地進行類 ChatGPT 的開發,包括春節假期期間,甚至將原計劃的支持中英雙語縮減爲專注中文。

在算力、資金、技術等方面都不佔優勢的情況下,指望百度一舉追上甚至超越 OpenAI 不現實。而且隨着谷歌開放 PaLM API(5400 億參數量的業界頂尖模型),以及 GPT-4 的進一步升級,大幅提高了通用版 GPT 的門檻,留給後來者的機會也越來越小。

但一方面,不管是 OpenAI 還是谷歌對中文的重視程度明顯不足,再加上網絡和法規等諸多因素,註定很難在國內直接大規模落地,百度等國內公司如果能在中文上追平甚至超越 OpenAI,也不失爲一種可行路徑。

另一方面,圍繞大語言模型和生成式 AI 的商業模式還有大量的未知,OpenAI 和百度一樣需要不斷地進行商業化嘗試。百度此前宣佈包括魅族、攜程、興業銀行、美通社等 400 多家企業將首批接入文心一言生態,意圖明顯希望極大地擴展生成式 AI 的用戶羣體,除了考慮生態的建立,可能也是提前搶佔中國更廣泛用戶的心智。

當然,在文心一言真正推出落地之前,很難評判它的真正實力和潛力。而且可以預見,文心一言將不可避免地被用來與 ChatGPT 進行對比,屆時纔是檢驗百度在大語言模型和生成式 AI 實力的時刻。