阿里領(lǐng)投2.9億美元,重注下一代AI“世界模型”
關(guān)鍵詞: 世界模型 生數(shù)科技 阿里巴巴 大型語言模型 AI視頻生成
隨著大型語言模型(LLM)的局限性逐漸顯現(xiàn),全球人工智能的競賽焦點正從“文本生成”轉(zhuǎn)向“模擬現(xiàn)實世界”。
4月10日消息,阿里巴巴已領(lǐng)投人工智能視頻生成工具Vidu的開發(fā)商——生數(shù)科技(Shengshu Technology)B輪融資,投資金額達20億元人民幣(約合2.9億美元)。這一巨額投資意味著科技巨頭正全力押注“世界模型”,試圖構(gòu)建一種能更好復(fù)制現(xiàn)實世界的新型人工智能。
本輪融資由阿里巴巴主導(dǎo),好未來教育和百度風(fēng)投也參與其中。
這是生數(shù)科技在短短兩個月內(nèi)完成的第二次大規(guī)模融資,此前該公司剛在啟明創(chuàng)投等機構(gòu)的支持下完成了6億元人民幣的融資。盡管生數(shù)科技拒絕透露最新的具體估值,但密集的資本注入已顯示出市場對這一技術(shù)路線的高度認可。
此次投資的核心邏輯,在于行業(yè)對當(dāng)前主流AI技術(shù)路線的深刻反思。過去幾年,以O(shè)penAI的ChatGPT為代表的基于文本訓(xùn)練的大型語言模型主導(dǎo)了市場。然而,隨著應(yīng)用場景的深入,開發(fā)者們開始意識到,僅靠文本難以讓AI真正理解復(fù)雜的物理規(guī)律。
生數(shù)科技認為,“基于視覺、音頻和觸覺等多模態(tài)數(shù)據(jù)構(gòu)建的通用世界模型,比大型語言模型更能自然地捕捉物理世界的運作方式,”這家成立僅三年的初創(chuàng)公司在一份聲明中闡述了其技術(shù)愿景。
生數(shù)科技創(chuàng)始人朱軍進一步補充道:“我們的目標(biāo)是將感知與行動聯(lián)系起來。”他希望通過這種新型模型,使人工智能系統(tǒng)能夠更好地模擬和預(yù)測現(xiàn)實世界的行為,從而打破數(shù)字世界與物理世界的隔閡。
根據(jù)AI分析機構(gòu)的數(shù)據(jù),生數(shù)科技于今年1月發(fā)布的Vidu Q3 Pro型號,在利用文本和圖像生成視頻的AI模型中已躋身全球前十。這一技術(shù)實力也是吸引阿里巴巴入局的關(guān)鍵因素。
實際上,阿里巴巴在“世界模型”領(lǐng)域的布局早已悄然展開。作為電商起家的科技巨頭,阿里不僅在2月推出了一款用于驅(qū)動機器人的模型,還發(fā)布了用于視頻生成的免費開源人工智能模型。
除了生數(shù)科技,阿里巴巴近期還領(lǐng)投了PixVerse的6000萬美元融資。PixVerse今年早些時候發(fā)布了一個AI世界模型,允許用戶在視頻生成過程中精確控制視頻的展開方式。與此同時,百度和百度風(fēng)投也在上個月領(lǐng)投了Tripo AI的5000萬美元融資。Tripo AI致力于利用AI技術(shù)從照片快速生成3D數(shù)字模型,其明確表示正在擺脫語言模型所使用的技術(shù),轉(zhuǎn)向基于物理空間的AI工具開發(fā)。
這一輪投資熱潮的背后,是全球科技界對AI下一階段形態(tài)的共識。美國科技雜志《連線》的聯(lián)合創(chuàng)始人凱文·凱利(Kevin Kelly)上個月在其Substack專欄中撰文指出,世界模型對于機器人技術(shù)至關(guān)重要,因為這項技術(shù)需要的不僅僅是LLM才能發(fā)揮作用。
凱利表示:“最終,要復(fù)制人類智能,人工智能需要三個要素:推理能力、對物理世界的理解以及持續(xù)學(xué)習(xí)。”他特別強調(diào),雖然目前的聊天機器人已經(jīng)構(gòu)建了知識元素,但“世界模型是亟需突破的關(guān)鍵領(lǐng)域”。
在激烈的市場競爭中,中國科技企業(yè)正試圖通過“世界模型”實現(xiàn)彎道超車。在OpenAI逐步關(guān)閉其視頻生成模型Sora的相關(guān)服務(wù)之后,包括字節(jié)跳動、快手在內(nèi)的多家公司紛紛推出了類似的AI視頻生成工具。
生數(shù)科技周五透露,公司已與多家開發(fā)具身智能(Embodied AI)的公司建立了戰(zhàn)略合作伙伴關(guān)系。這些合作旨在將AI技術(shù)應(yīng)用于與物理世界互動的人形機器人等系統(tǒng),服務(wù)于工業(yè)、商業(yè)和家庭環(huán)境。