You are browsing the Hong Kong website, Regulated by Hong Kong SFC (CE number: BJA907). Investment is risky and you must be cautious when entering the market.
Market News

Market News

HomeMarket NewsDetails

GPT-4震撼發佈,圖片/視頻應用、遊戲和虛擬人有望加速融合

uSMART盈立智投 03-17 11:10

GPT-4在理解能力、圖片和文本的綜合理解、定製個性等方面具有顯著提升。對於應用領域而言,我們已經可以看到多模態模型幫助應用同時實現增收、降本增效的可能性。我們此前將現在類比爲移動互聯網爆發前夕,預計GPT-4將加速這一進程。

其中我們認爲“多模態+圖片/視頻應用”是應用發展的基座,“+遊戲”將從改善需求看實現增收,同時爲大型遊戲減少研發費用,爲中小型遊戲減少營銷費用,“+虛擬人”將解決行業發展受限於套皮等“僞需求”問題。

OpenAI在3月15日正式發佈GPT-4。據OpenAI,GPT-4是多模態模型,可以理解文字和圖片,並反饋文字,其理解能力較GPT-3和ChatGPT更強。目前GPT-4的文字輸入和反饋功能已經在ChatGPT更新,並開放了API接口,而圖片輸入功能將會和Be My Eyes合作。據Be My Eyes官網,Virtual Volunteer功能將會結合GPT-4,iOS和安卓應用已開放該功能的預約。

據OpenAI官網,相較ChatGPT和GPT-3,GPT-4主要在一下6個方面有較大改進:

1)GPT-4的理解能力有重大優化,我們預計將顯著改善辦公等生產力場景的用戶體驗。據OpenAI官網,在模擬AP、SAT、GRE和美國法考等大部分考試中,帶視覺能力的GPT-4可以獲得更好的成績。26門模擬考試中,GPT-4在17門獲得了更好的成績,特別是在微積分、化學和物理等理科領域有近40%,甚至更高的排名提升。據The Verge報道,此前ChatGPT在數學推算過程中時常會出現錯誤。而從此次OpenAI展示的結果看,數學邏輯的推理能力已明顯提升。此外排名提升最大的是美國司法考試,GPT-3.5排名僅列後10%,而GPT-4.0可以達到前10%的排名。

2)多模態模型可以綜合理解文本和圖片,從而優化反饋,我們預計更有助提升教育領域的用戶體驗。GPT-4的多模態模型可以提取圖片和文字中的標籤,以統一的數據進行處理,並給予文字反饋。因此在OpenAI的測試中,GPT-4可以理解搞笑圖片中iPhone的數據線不合常理得大的梗。我們認爲圖片和文本的綜合理解能力可以優化交互場景體驗。比如在教育場景中,從此前單純的文字/語言互動,發展成結合視覺和語言的理解,給予更好的反饋,預計豐富教育形式,從而提升教育質量。

3)GPT-4在非英語場景下表現得更好。OpenAI使用Azure Translate將57門學科的14,000道選擇題翻譯成了26種語言,並給予GPT-4測試。結果顯示,GPT-4在其中24種語言的正確率高於GPT-3.5、Chinchilla、谷歌的PaLM等LLM的英文測試表現,包括拉脫維亞語、威爾士語、斯瓦西里語等預料資源稀缺的小語種。從另一層面可見GPT-4對於語言的理解能力也要由於其他LLM。

4)GPT-4的“可操縱性”(Steerability)將賦予AI不同的個性,預計將進一步推動虛擬人成爲“人”的可能。相比ChatGPT固定的語言風格,GPT-4將允許接入API的用戶定製AI的“性格”。我們預計將進一步優化虛擬人的反饋機制,類似於國內AI對話應用Glow可以讓用戶與“鋼鐵俠”Tony Stark等不同背景、場景的虛擬人對話,將相關技術帶入虛擬人場景中,是虛擬人成爲真正的“人”。

因此,我們認爲ChatGPT使虛擬人擺脫動捕僅,獲得AI反饋機制,成爲“人”是第一步,而GPT-4解鎖了虛擬人發展的第二部,使其成爲個性迥異的“人”。這有助於解決虛擬人發展受限於套皮、性格等造成與虛擬人對話、互動是“僞需求”的問題。

5)在體驗方面,GPT-4在安全、道德、法律等方面的防範意識更好。OpenAI的研發人員基於在開放後,用戶不斷提出的有害信息、誘導性問題,對模型進行了優化,因此現在GPT-4在安全、道德、法律等方面的防範意識更強。

6)GPT-4允許用戶輸入更長的內容。相較GPT-3.5和ChatGPT約4,096 tokens/約8,000單詞的限制,GPT-4允許用戶最多輸入32,768 tokens/64,000單詞,是過去的8倍。因此,GPT-4可以更持續性地與用戶進行更多輪的對話,而不會很快“忘記”之前的對話內容。

以獲得Y Combinator支持的生成式AI初創公司爲例,多數應用主要是文本形式的輸入和輸出類應用,包括客服、辦公輔助、科技金融等,其次爲文本生成圖片的變相應用,如生成不同藝術風格的短視頻(無情節的藝術插畫拼接)、遊戲3D模型和素材生成等。

此次多模態的GPT-4發佈,我們認爲一方面,在生產力工具、教育和客服等交互應用,這類目前更容易落地的場景內,我們可以看到GPT-4的輔助能力進一步提升,優化了現有落地場景的用戶體驗;另一方面,我們也看到了多模態模型的可能性,此次升級在輸入端,將文本理解,升級成文本和圖片的綜合理解,而未來我們也可以展望在輸出端,也可以有文本結合圖片、視頻等形式的產出,從而推動圖片/視頻應用、遊戲、虛擬人等應用場景有更豐富的功能落地。

我們認爲“多模態+圖片/視頻應用”是應用領域的基座,提升生產效率、降低成本。目前已有的AIGC技術融合應用的形式還較爲單一,多數仍是文字生成圖片的變相應用。而多模態模型使文本、圖片、視頻等多種內容形式的綜合理解,以及多種內容的結合輸出成爲可能。最終不僅可以在C端的場景中,爲日常生活提供娛樂和生產工具,同時也可以在遊戲、虛擬人等內容的生產中提供輔助工具。因此我們認爲,“多模態+圖片/視頻應用”是應用領域落地的基礎。

“多模態+遊戲”:1)提升行業需求:互動感倍增,解決行業需求放緩的痛點。自疫情初期經歷短暫需求增長後,市場整體出現需求疲軟的情況。據遊戲產業報告,22年中國遊戲市場實際銷售收入2,658.8億元,同比下降10.3%,減少306.3億元。而多模態AIGC模型的應用,預計可提升遊戲的互動體驗。如網易已在《逆水寒》中將AIGC技術應用於NPC,增加玩家互動體驗。未來,我們預計AIGC可以改變遊戲固定的故事模式,提升遊戲的內容量,增強遊戲的互動體驗,最終通過技術改善遊戲需求增長放緩的問題。

2)降低成本:大型遊戲降低研發成本,中小型遊戲降低營銷成本。除增收以外,多模態也可以通過更低的生產成本製作出內容量更大的遊戲,類似於TechCrunch報道的,哥本哈根大學的團隊將AIGC技術應用於《超級馬里奧》遊戲中,生成無限關卡的MarioGPT,對於大型遊戲而言可以降低研發成本。

中小型遊戲的研發成本佔比有限,而將本邏輯類似於廣告營銷公司。基於用戶在微博、抖音等平臺觀看的內容,以及天氣、地理位置等外部信息,生成“千人千面”的廣告內容,最終提升廣告的ROI。因此,多模態模型可以降低廣告素材生產成本,提升廣告效果,從而爲中小型遊戲將本。

“多模態+虛擬人”:成爲真正的“人”,解決行業發展痛點。由於目前虛擬人存在套皮,或是AI生成的虛擬人性格單一等問題,導致虛擬人存在是否爲“僞需求”的質疑。而從此次GPT-4的發佈中可以看到,AI已可以擁有個性,同時多模態可以結合文本/語言、圖片/視覺的理解,更好得讓虛擬人理解人類的真實感受,並給出反饋,提升互動的體驗感,解決行業發展痛點。

我們認爲多模態的GPT-4爲圖片/視頻應用、遊戲和虛擬人在發展中落地 AIGC 技術,提供了更多可能性,有助同時實現增收、降本增效,最終改善行業和個股的估值彈性。

風險提示:

生成式AI技術發展不及預期、各領域技術融合進度不及預期的風險、算力支持程度不及預期、數據質量及數量支持程度不及預期、用戶需求不及預期、技術壟斷風險、原始訓練數據存在偏見風險、算法偏見與歧視風險、算法透明度風險、增加監管難度風險、政策監管風險、商業化能力不及預期、相關法律法規完善不及預期、版權歸屬風險、深度造假風險、人權道德風險、影響互聯網內容生態健康安全風險、企業風險識別與治理能力不足風險、用戶審美取向發生變化的風險。