21日,北京智源人工智能研究院(以下簡稱智源研究院)正式發(fā)布原生多模態(tài)世界模型Emu3。據(jù)悉,該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。Emu3成功驗證了基于下一個token(詞元)預測的多模態(tài)技術范式,釋放其在大規(guī)模訓練和推理上的潛力。
據(jù)了解,下一個token預測被認為是通往AGI的可能路徑,但這種范式在語言以外的多模態(tài)任務中沒有被證明。此前,多模態(tài)生成任務仍然由擴散模型主導,而多模態(tài)理解任務則由組合式的方法主導。
據(jù)介紹,Emu3只基于下一個token預測,無須擴散模型或組合式方法,把圖像、文本和視頻編碼為一個離散空間,在多模態(tài)混合序列上從頭開始聯(lián)合訓練一個Transformer架構。在圖像生成、視覺語言理解、視頻生成任務中,Emu3的表現(xiàn)超過了一些知名開源模型。
智源研究院院長王仲遠在接受科技日報記者采訪時表示:“Emu3證明了下一個token預測能在多模態(tài)任務中有高性能的表現(xiàn),這為構建多模態(tài)AGI提供廣闊的技術前景。Emu3有機會將基礎設施建設收斂到一條技術路線上,為大規(guī)模的多模態(tài)訓練和推理提供基礎,這一簡單的架構設計將利于產(chǎn)業(yè)化。未來,多模態(tài)世界模型將促進機器人大腦、自動駕駛、多模態(tài)對話和推理等場景應用。”
近日,智源研究院還開源了Emu3生成和理解一體的預訓練模型以及相應的SFT(監(jiān)督微調(diào))訓練代碼,以方便后續(xù)研究和社區(qū)構建與集成。
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2024 中國高新網(wǎng)chinahightech.comAll Rights Reserved.京ICP備14033264號-5
電信與信息服務業(yè)務經(jīng)營許可證060344號主辦單位:《中國高新技術產(chǎn)業(yè)導報》社有限責任公司