2025北京智源大會(huì)6月6日開幕,智源研究院院長王仲遠(yuǎn)就多模態(tài)大模型、具身智能等熱點(diǎn)問題接受媒體采訪。他表示,多模態(tài)大模型已在特定場景啟動(dòng)落地,但尚未實(shí)現(xiàn)高度普適化。智源多模態(tài)大模型是為了推動(dòng)AI從數(shù)字世界走向物理世界,未來除了視頻、文字、語音、腦信號(hào)數(shù)據(jù)等,多模態(tài)大模型還將加入3D信號(hào)、時(shí)空信號(hào)等數(shù)據(jù)進(jìn)行融合。

 

從繁雜的模態(tài)數(shù)據(jù)中篩選最有效信息亟待突破

 

王仲遠(yuǎn)表示,互聯(lián)網(wǎng)文本數(shù)據(jù)基本已經(jīng)被使用完畢,大語言模型性能提升已相對緩慢?,F(xiàn)實(shí)世界中存在大量多模態(tài)數(shù)據(jù),比如流程圖、CT數(shù)據(jù)和各行業(yè)的傳感器數(shù)據(jù)等,可以突破大語言模型的瓶頸。

 

開幕式上,智源研究院推出“悟界”系列大模型,其中,Emu3作為原生多模態(tài)統(tǒng)一架構(gòu),讓大模型具備理解和推理世界的能力。

 

如何理解原生多模態(tài)大模型的“原生”概念?王仲遠(yuǎn)說,當(dāng)前多模態(tài)大模型的學(xué)習(xí)路徑,尤其是多模態(tài)理解模型,通常是先將語言模型訓(xùn)練到很強(qiáng)的程度,隨后再學(xué)習(xí)其他模態(tài)信息,如同先達(dá)到博士學(xué)位水平,再去接觸其他知識(shí)。在此過程中,模型的能力可能會(huì)出現(xiàn)下降,從“博士”水平降至“大學(xué)”甚至“高中”水平。

 

但人類的學(xué)習(xí)路徑不是這樣的,小朋友從出生就開始聽到世界的聲音,跟各種物品、圖像交互學(xué)習(xí),父母通過聲音教他。所謂的“原生”正是如此,是指在模型訓(xùn)練初始階段,就將文字、圖像、聲音乃至腦信號(hào)等各種模態(tài)數(shù)據(jù)都納入其中進(jìn)行訓(xùn)練。隨著模態(tài)種類不斷增加,如何從繁雜的模態(tài)數(shù)據(jù)中篩選出最有效的信息,成為亟待突破的技術(shù)難題。目前,不僅智源研究院,行業(yè)內(nèi)眾多機(jī)構(gòu)都在積極探索原生多模態(tài)技術(shù)。

 

此外,也有專家學(xué)者猜測,國際上近期發(fā)布的產(chǎn)品背后或許已運(yùn)用原生多模態(tài)技術(shù),不過這些產(chǎn)品對技術(shù)細(xì)節(jié)的披露愈發(fā)稀少。從行業(yè)專家及學(xué)術(shù)層面來看,原生多模態(tài)是值得深入探索的技術(shù)路線,它與企業(yè)多模態(tài)技術(shù)路線存在差異。企業(yè)多模態(tài)技術(shù)是先強(qiáng)化語言模型,再添加多模態(tài),更便于實(shí)現(xiàn)產(chǎn)業(yè)落地。

 

在產(chǎn)業(yè)界,多模態(tài)大模型依然在做圖像生成、視頻生成,這些在設(shè)計(jì)、廣告、電商領(lǐng)域有很好的落地,可以極大提升生產(chǎn)效率。王仲遠(yuǎn)介紹,多模態(tài)大模型已在特定場景啟動(dòng)落地,但尚未實(shí)現(xiàn)高度普適化。在實(shí)際場景中,多模態(tài)需求不可回避。例如,英語教學(xué)需融合聲音、圖像與場景理解,但當(dāng)前多模態(tài)大模型能力仍顯著弱于語言模型,導(dǎo)致產(chǎn)品效果不及預(yù)期。盡管產(chǎn)業(yè)界嘗試通過“打補(bǔ)丁”的方式優(yōu)化體驗(yàn),但根本性突破仍依賴更強(qiáng)大的基礎(chǔ)模型。

 

未來多模態(tài)模型將加入3D信號(hào)、時(shí)空信號(hào)等

 

“智源多模態(tài)大模型是為了推動(dòng)AI從數(shù)字世界走向物理世界?!蓖踔龠h(yuǎn)說,具身領(lǐng)域的數(shù)據(jù)有更多模態(tài),現(xiàn)在的模態(tài)包括視頻、文字、語音、腦信號(hào)數(shù)據(jù)等,未來還可能加入3D信號(hào)、時(shí)空信號(hào)等數(shù)據(jù)。

 

“我們做的原生多模態(tài)世界模型的統(tǒng)一架構(gòu),不僅理解靜態(tài)的多模態(tài)數(shù)據(jù),還要理解空間、時(shí)間。”他舉例說,現(xiàn)在很多多模態(tài)模型看到桌子上的咖啡杯,會(huì)描述“咖啡杯在桌上,咖啡杯是白色的,上面有一些文字”,但人類對空間上的認(rèn)知會(huì)覺得“咖啡杯在桌子的邊緣,很危險(xiǎn)”?,F(xiàn)在絕大部分多模態(tài)大模型不具備這樣的判斷能力。

 

有了空間的理解后,機(jī)器人操作時(shí)就應(yīng)該從桌子邊緣往里拿杯子,而不是從里往外拿杯子?!翱Х缺锌赡艿粝氯ド踔僚K地板,這就是時(shí)空智能預(yù)測,是我們要探索的多模態(tài)世界模型的能力?!?/p>

 

具身智能“小組賽”還未結(jié)束,遠(yuǎn)沒有到“淘汰賽”


談及具身智能,王仲遠(yuǎn)表示,在具身智能發(fā)展過程中,智源希望能探索出獨(dú)特的發(fā)展路徑:首先是數(shù)字智能物理化。通過大模型技術(shù)將數(shù)字世界的推理、規(guī)劃等智能能力延伸至物理世界,推動(dòng)機(jī)器人從“單一功能”向“通用智能”進(jìn)化。

 

其次是低成本功能化。聚焦垂直場景,降低單臺(tái)機(jī)器人成本并強(qiáng)化特定能力,如家庭清潔、工業(yè)分揀,通過規(guī)?;涞胤e累數(shù)據(jù),逐步拓展應(yīng)用邊界,讓很多小型機(jī)器人也能走進(jìn)千家萬戶。因?yàn)榇笮腿诵螜C(jī)器人技術(shù)復(fù)雜度高,商業(yè)化周期更長,而小型專用機(jī)器人若能在細(xì)分場景實(shí)現(xiàn)極致性價(jià)比,可能率先滲透家庭與產(chǎn)業(yè)場景,為具身智能的長期發(fā)展奠定基礎(chǔ)。

 

目前,許多智能駕駛車企正在進(jìn)軍具身智能領(lǐng)域。對此,他認(rèn)為,車企的核心優(yōu)勢體現(xiàn)在制造能力與產(chǎn)業(yè)鏈整合、落地場景資源兩個(gè)方面。智能駕駛車企積累的交通、出行等場景數(shù)據(jù),可能為具身智能提供初期應(yīng)用場景,比如物流、服務(wù)機(jī)器人等。

 

但具身智能的技術(shù)復(fù)雜度遠(yuǎn)超智能駕駛,需融合感知、決策、行動(dòng)等多維度能力,對算法、硬件協(xié)同要求更高,車企現(xiàn)有技術(shù)積累未必直接適用。另外,具身智能尚處發(fā)展早期?!靶〗M賽”階段,大模型機(jī)構(gòu)、硬件廠商、科研團(tuán)隊(duì)等多方參與,不同領(lǐng)域玩家的技術(shù)路徑仍在碰撞中,遠(yuǎn)沒有到“淘汰賽”階段,最終誰能形成突破尚未可知?!安贿^,越來越多參與方共建具身智能產(chǎn)業(yè),本身是件好事,每一方都會(huì)帶來不同的視角和理念。具身智能最終是交叉學(xué)科,不同思想的碰撞一定有利于產(chǎn)業(yè)發(fā)展。”

 

未來三年,具身智能最可能在哪個(gè)領(lǐng)域產(chǎn)生突破性的規(guī)模化應(yīng)用?王仲遠(yuǎn)認(rèn)為,首先是在相對封閉的特定場景里落地,比如工廠,這不僅能規(guī)避當(dāng)前具身智能不成熟階段的安全隱患,同時(shí)也能替代人類進(jìn)行相對重復(fù)且枯燥的任務(wù)。

 

新京報(bào)記者 張璐

編輯 劉夢婕 校對 付春愔