國產大模型,密集放大招。
2月12日,字節跳動豆包大模型團隊發布消息稱,團隊提出了全新的稀疏模型架構UltraMem,可有效解決MoE(Mixtureof Experts,混合專家模型)推理時高額的訪存問題,推理速度較MoE架構提升2—6倍,推理成本最高可降低83%。
除了字節豆包以外,阿里和智譜AI也傳來新動態。據TheInformation援引知情人士消息稱,蘋果和阿里將合作為中國iPhone用戶開發AI功能。受該消息影響,阿里美股直線拉升,一度漲超3%。另外,三星則宣布智譜的AgenticGLM成為其新手機GalaxyS25的AI能力來源。業內分析稱,蘋果牽手阿里,三星與智譜合作,AI手機在中國市場的端側AI大戰,將在2025年進入焦灼的“貼身肉搏”狀態。
豆包提出新架構,大幅降低推理成本
據豆包大模型團隊,在大模型主流的Transformer架構下,模型的性能與其參數數量和計算復雜度呈對數關系。隨著大語言模型規模不斷增大,推理成本會急劇增加,速度變慢。盡管MoE架構已經成功將計算和參數解耦,但在推理時,較小的batchsize就會激活全部專家,導致訪存急劇上升,進而使推理延遲大幅增加。
為解決這一問題,字節跳動豆包大模型Foundation團隊提出了全新的稀疏模型架構UltraMem,這一架構同樣將計算和參數解耦,但在保證模型效果的前提下解決了推理的訪存問題。
實驗結果表明,在參數和激活條件相同的情況下,UltraMem在模型效果上超越了MoE,并將推理速度提升了2—6倍。在常見batchsize規模下,UltraMem的訪存成本幾乎與同計算量的稠密模型相當。
據了解,最近大火的國產模型團隊DeepSeek,重要的一項技術基石就是MoE。其自研的DeepSeekMoE是一種創新的大規模語言模型架構,通過整合專家混合系統、改進的注意力機制和優化的歸一化策略,在模型效率與計算能力之間實現了新的平衡。
隨著豆包大模型團隊提出新的稀疏模型架構UltraMem,大模型訓練推理成本有望進一步快速下降,推動大模型的發展。
AI手機兩大重磅,都與國產大模型有關
據TheInformation援引知情人士消息稱,蘋果和阿里將合作為中國iPhone用戶開發AI功能,具體功能包括圖像生成、文本優化、智能搜索等,以增強iPhone在攝影、通知管理和文本處理等場景的體驗。受該消息影響,阿里美股直線拉升,一度漲超3%。
該報道還稱,蘋果和阿里已將雙方共同開發的AI功能提交給監管機構審批,若獲批,中國將成為全球首個使用蘋果與本土企業合作AI功能的地區。事實上,此前屢屢有關于蘋果與國產AI大模型合作的消息傳出,曾有消息稱百度或成為蘋果的合作伙伴,還有傳言稱蘋果曾與騰訊、字節以及智譜AI、百川等公司接觸。
蘋果在華銷售額已連續兩年下降,2024年第四季度同比下滑11%,這一舉措是蘋果應對中國市場銷售下滑的戰略之一,旨在通過更具吸引力的軟件功能,與華為、vivo等本土品牌的競爭對手抗衡。
阿里是國產AI大模型的第一梯隊玩家。在今年春節期間,阿里云通義千問旗艦版模型Qwen2.5-Max正式升級發布。據其介紹,Qwen2.5-Max模型是阿里云通義團隊對MoE模型的最新探索成果,預訓練數據超過20萬億tokens,展現出極強勁的綜合性能,在多項公開主流模型評測基準上錄得高分,全面超越了目前全球領先的開源MoE模型以及最大的開源稠密模型。
Qwen2.5-Max的發布還引發了資本市場關于重估中國AI資產的討論。業內人士分析,阿里云不僅發布了與全球頂尖模型比肩甚至更優的模型,而且具備完整的云生態,或能形成類似去年北美云計算服務商的投資邏輯。自1月中旬以來,阿里美股累計漲幅已超30%。
除了蘋果+阿里的組合以外,三星+智譜的合作也引發市場關注。智譜和三星基于AgenticGLM展開合作,三星最新手機GalaxyS25系列現可支持基于AI的實時語音和視頻通話,以及實現視覺理解和系統功能調用、AI搜索、文案寫作等功能,智譜旗下C端產品智譜清言及清言智能體平臺登陸GalaxyS25系列。
智譜有關負責人介紹稱,AgenticGLM讓GalaxyS25系列能夠同時處理文本、語音、圖像和視頻等多模態的數據,并能夠使用工具,具備自主行動能力。比如,GalaxyS25系列的“語聊視界”功能,能夠讓AI視頻通話功第一次在手機上同用戶智能互動。GLM-Realtime支持圖片和視頻輸入,能夠精確識別畫面中的文字和細節,以及流式推理能力帶來了低延時。它還擁有多輪記憶能力,能作為更聰明的語音助理,為用戶提供流暢的翻譯、搜索等功能。
“基于最新GalaxyAI的三星GalaxyS25系列手機是三星在全球范圍內首次推出具有視頻通話功能的原生AI智能硬件產品。很高興智譜AgenticGLM豐富多樣的AI功能通過系統級的無縫嵌入,能夠為廣大用戶提供沉浸、智能、安全的AI手機體驗。”智譜方面表示。
業內人士普遍認為,隨著DeepSeek等國產大模型帶動大模型的成本大幅下降,有望推動端側AI加速發展,帶動智能手機、智能家居設備、智能可穿戴設備等更多終端設備集成智能功能。
校對:彭其華