中國市場會慢慢演變,屆時英偉達會是一部分算力底座,其他國產芯片是另一部分算力底座。
DeepSeek是國產算力企業在春節看到的最大煙花。
2025年春節前,DeepSeek發布大模型;春節期間,國內GPU企業以及云計算廠商等,紛紛披露適配DeepSeek模型的進展。為此,不少科技從業人員度過了一個無休的假期。DeepSeek大模型的訓練是基于英偉達的GPU,目前后者是全球大模型的算力底座(占比九成以上)。不過,DeepSeek也指向重大轉變的可能:訓練一款性能優異的大模型,不需要那么多高的算力投入。
DeepSeek震蕩科技圈,國產算力搭配國產大模型的機會出現。沐曦CTO楊建認為,今年年底部分大模型的預訓練可能會轉入非英偉達的卡,明年這種趨勢會更加明顯?!爸袊袌鰰葑儯瑢脮r英偉達會是一部分算力底座,其他國產芯片是另一部分算力底座。全球算力供應變成兩條并行的線路了?!?/p>
國產算力搭配國產模型
春節前后,國產芯片密集適配DeepSeek。
2月1日,大模型云服務平臺Silicon Cloud上線了DeepSeek-V3、DeepSeek-R1。Silicon Cloud背后的公司硅基流動特別強調,“在自研推理加速引擎加持下,硅基流動團隊基于華為云昇騰云服務部署的DeepSeek 模型可獲得持平全球高端GPU部署模型的效果。”
2月2日,Gitee AI表示在春節期間上線四個較小尺寸的DeepSeek模型,均部署在國產的沐曦曦云GPU上,面向開發者市場。
據沐曦CTO楊建向第一財經介紹,從雙方協商到部署完成,整個過程不過兩天時間。“模型大小決定了使用場景,比如1.5B模型可以用到手機上,7B及以上模型都可以用在云端或者私有化部署上?!?/p>
2月4日,摩爾線程宣布完成了小尺寸的DeepSeek模型在其自主設計的夸娥(KUAE)GPU集群上的部署,并表示即將開放夸娥智算集群,支持DeepSeek V3、R1模型及新一代蒸餾模型的分布式部署。
“DeepSeek V3和R1模型的部署需要集群能力。但基于DeepSeek蒸餾的小模型,不需要集群也能部署。摩爾線程基于自研全功能GPU,通過開源與自研雙引擎方案,可以快速實現對DeepSeek蒸餾模型的推理服務部署?!蹦柧€程AI與云計算副總裁王華書面回復第一財經時表示。
2月5日,云服務商優刻得宣布基于壁仞科技國產芯片的內存架構、多模型適配能力,開展包括R1在內的DeepSeek全系列模型適配工作。壁仞科技是一家中國GPU廠商。實際上,在壁仞科技的芯片上部署DeepSeek之前,優刻得已經在英偉達芯片上部署了這款大熱的模型。
“我們應該是在除夕那天完成的部署?!眱灴痰糜嬎惝a品中心研發總監王曉慧對第一財經表示,很多科技企業和技術人員被DeepSeek年前所放的大煙花所震動,度過了一個無休的春節。
在DeepSeek-V3/R1上線不久,昆侖芯也完成了全版本模型適配,其中包括DeepSeek MoE 模型及其蒸餾的Llama/Qwen等小模型。昆侖芯方面表示,該公司的P800僅需32臺即可支持模型全參訓練,完成模型持續訓練和微調。
這幾家中國芯片企業表態前后,國內國際的科技大廠也先后表示已經將DeepSeek模型納入其產業生態,這些大廠包括了國內的阿里云、百度云以及騰訊云,美國的亞馬遜云科技、Meta、谷歌等。
不過,這些科技大廠的算力底座基本都是英偉達。
“在大模型訓練過程中,我認為全球98%的訓練是基于英偉達GPU算力底座的。今天為止,非英偉達算力底座的訓練合在一起可能也就2%的市場份額。”楊建告訴記者。
王曉慧同樣認為,當下“云上算力的分布,98% 、99%都是英偉達?!?/p>
DeepSeek展示了超強的產業穿透力,不過它并沒有脫離英偉達生態。王華認為,DeepSeek繞過英偉達的CUDA是誤讀,本質上其技術實現仍深度依賴NVIDIA生態的核心組件(PTX)。即使框架層試圖抽象化CUDA API,只要底層運行在英偉達GPU上,就不可避免與CUDA工具鏈和硬件驅動綁定。這種依賴關系反映了當前AI算力領域“NVIDIA主導,開源生態依附”的現實格局。
“只是第一步跨出來了”
“國產算力把DeepSeek模型跑起來,其實是相對比較容易的。現在大家都只是第一步跨出來了?!蓖鯐曰郾硎?。
國產GPU適配主流開源大模型已經有幾年時間,比如支持Meta的LlaMa、阿里的通義千問等。但難點之一在于如何把模型架構跟硬件架構做比較好地結合,使其整體性能得到更大提升。
目前DeepSeek大模型搭配的國產GPU所能展示出來的性能和英偉達GPU還有一定差距。這背后原因在于DeepSeek模型本身的架構,它的訓練、推理過程,最初都是在英偉達芯片上跑出來的,針對英偉達芯片做了高度的調優。“短時間內,很難把這些優化點匹配到國產芯片上來。我覺得這也是接下來各大國產芯片廠商要去做的一件事情?!?/p>
國產芯片繞過英偉達抵達最終用戶,難點更在于英偉達的護城河寬且深。
“比如說他(指用戶)現在跑一個(英偉達)4090或者跑一個(英偉達)H100,裝一個軟件報錯了。他去論壇或者問身邊有經驗的人,就能非常容易地找到解決方案。大家遇到過類似的問題,能夠在社區里面找到可以咨詢的人。”楊建對記者說,而很多國產卡的信息不那么開放,社區活躍度沒有那么高,用戶一旦遇到卡點就很難解決,要花很多時間在非業務上。
這一點在小型團隊上表現得更加明顯。
直播、數字人等小型團隊,有時候只有四五個人。這些團隊在財力上缺乏騰挪的空間,在技術迭代上缺乏騰挪的時間。“他們做東西一定是一上來就要養活團隊。哪個更容易上手,哪個錢更少,他一定是去走這條路徑,而不是一上來就國產化?!蓖鯐曰壅f,小型公司部署大模型的時候,優先考慮的還是英偉達的算力,這是最快看到結果,或者試錯成本最低的方式。
國產芯片往往需要在價格上給出折扣,才能更好導入私有化部署的企業。王曉慧認為:“國產算力卡的性價比要達到20%、甚至30%的提升,否則企業很少有會愿意去做主動替換?!?/p>
美國在過去幾年實施的高端算力芯片禁令,使得中國企業更難以獲得英偉達產品,而DeepSeek爆火之后,已經有些美國企業開始炒作進一步限制中國芯片進口。美國禁令倒逼中國芯片企業發展。
“DeepSeek火了之后,美國企業是非常恐慌的。所以未來對中國算力的管控一定會越來越嚴。我們自身如果沒有任何突破的話,算力就會成為一個瓶頸。所以國產算力是必然要去走的一條路?!蓖鯐曰壅f。
并行的算力供應線
據楊建觀察,DeepSeek公開的技術報告對芯片設計給出了一些建議。
“它自己在跑H800的過程中,發現有一些設計本身是不太合理的。比如芯片占用大量的算力去做通信,DeepSeek提出能不能把通信抽出來做。英偉達就很難根據這種建議去做改進,但是國產卡是有可能采納這部分意見的?!睏罱ㄕf。英偉達生態龐大而牽一發動全身,國產芯片企業普遍規模比較小,也有靈活機動的優勢?!皣a芯片起步沒有那么早,技術棧沒有那么深,想要去做一些調整,應該是比較輕量的?!?/p>
DeepSeek并不比其他國產大模型更容易搭載國產芯片。但王曉慧也認為,只要是走在這個發展路徑上,一定會適配的越來越好。
王曉慧表示:“它不可能一下子把所有在英偉達上的優化,能夠無縫遷移到國產卡上,這是有適配周期和過程的。但你這有了這樣的一個模型架構,國產卡可以去出一些軟件升級,一些還在萌芽里的芯片廠在設計上可能也會有一些新的想法,能夠去讓DeepSeek優化的更好。”
騰訊云、優刻得這樣的平臺搭載的大模型接近百款,除了使用英偉達的芯片之外,在幾年前就已經適配壁仞科技等國產芯片。
最早的時候,優刻得為了能讓國產卡跑起來,需要做非常多的適配、調試。但那時候的“國產卡可能跑著跑著就掛了”。
“原先我們測一些機卡,單卡的性能可能達到英偉達的一定程度。一旦到多卡多機之后,性能就明顯有衰減?!蓖鯐曰蹚膸啄昵伴_始測試一些國產卡,她感覺進步明顯,“我們去年開始已經能看到,這部分已經在緩解,有非常大的提升。”
國產算力也在日新月異地提升。
蛇年開工當天,昆侖芯新一代產品P800萬卡集群點亮。昆侖芯也已適配文心系列、Llama、Qwen、ChatGLM等各類大模型的推理和訓練任務;摩爾線程目前已經適配并拉起了數百個LLM模型的訓練,在制造業、工程機械、教育、金融、政務、AI繪畫等眾多行業得到一定的應用。
楊建認為,今年年底部分大模型的預訓練可能會轉入非英偉達的卡,而明年這種趨勢會更加明顯。“到了2026年、2027年,我認為英偉達在美國仍然是最主要的預訓練、甚至后訓練的算力底座。但中國市場會慢慢演變,屆時英偉達會是一部分算力底座,其他國產芯片是另一部分算力底座。全球算力供應變成兩條并行的線路了?!?/p>
目前英偉達GPU在算力性能和生態成熟度上仍具優勢,DeepSeek等大模型的技術迭代短期內難以完全脫離其生態。但長期來看,隨著國產替代的推進、算法優化能力的提升,以及行業對供應鏈安全的重視,將逐步降低單一依賴風險。
“這一過程需要時間和技術積累,但已是不可逆的趨勢。未來的算力底座更可能呈現‘多元共存’的形態,而非某一廠商的絕對主導?!蓖跞A表示。