亚洲无线一二三四区手机,2019nv天堂香蕉在线观看,国产日产久久高清欧美一区

原生多模態(tài)世界模型Emu3發(fā)布實現(xiàn)文圖視頻“大一統(tǒng)”

2024-10-22 16:57:43: 來源：科技日報　作者：華凌
分享到：

21日，北京智源人工智能研究院（以下簡稱智源研究院）正式發(fā)布原生多模態(tài)世界模型Emu3。據(jù)悉，該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。Emu3成功驗證了基于下一個token（詞元）預測的多模態(tài)技術范式，釋放其在大規(guī)模訓練和推理上的潛力。

據(jù)了解，下一個token預測被認為是通往AGI的可能路徑，但這種范式在語言以外的多模態(tài)任務中沒有被證明。此前，多模態(tài)生成任務仍然由擴散模型主導，而多模態(tài)理解任務則由組合式的方法主導。

據(jù)介紹，Emu3只基于下一個token預測，無須擴散模型或組合式方法，把圖像、文本和視頻編碼為一個離散空間，在多模態(tài)混合序列上從頭開始聯(lián)合訓練一個Transformer架構。在圖像生成、視覺語言理解、視頻生成任務中，Emu3的表現(xiàn)超過了一些知名開源模型。

智源研究院院長王仲遠在接受科技日報記者采訪時表示：“Emu3證明了下一個token預測能在多模態(tài)任務中有高性能的表現(xiàn)，這為構建多模態(tài)AGI提供廣闊的技術前景。Emu3有機會將基礎設施建設收斂到一條技術路線上，為大規(guī)模的多模態(tài)訓練和推理提供基礎，這一簡單的架構設計將利于產(chǎn)業(yè)化。未來，多模態(tài)世界模型將促進機器人大腦、自動駕駛、多模態(tài)對話和推理等場景應用。”

近日，智源研究院還開源了Emu3生成和理解一體的預訓練模型以及相應的SFT（監(jiān)督微調(diào)）訓練代碼，以方便后續(xù)研究和社區(qū)構建與集成。

編輯：韓夢晨

相關閱讀：

版權與免責聲明:
①凡本站注明稿件來源為：中國高新技術產(chǎn)業(yè)導報、中國高新網(wǎng)、中高新傳媒的所有文字、圖片和音視頻稿件，版權均屬本網(wǎng)所有，任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權不得轉載、鏈接、轉貼或以其他方式復制發(fā)表。已經(jīng)本網(wǎng)授權使用作品的，被授權人應在授權范圍內(nèi)使用，并注明“來源：中國高新網(wǎng)、中高新傳媒或者中國高新技術產(chǎn)業(yè)導報”。違反上述聲明者，本網(wǎng)將追究其相關法律責任。
② 任何單位或個人認為本網(wǎng)站或本網(wǎng)站鏈接內(nèi)容可能涉嫌侵犯其合法權益，應該及時向本網(wǎng)站書面反饋，并提供身份證明，權屬證明及詳細侵權情況證明，本網(wǎng)站在收到上述文件后，將會盡快移除被控侵權的內(nèi)容或鏈接。
③如因作品內(nèi)容、版權和其他問題需要與本網(wǎng)聯(lián)系的，請在該事由發(fā)生之日起30日內(nèi)進行。電話：010-68667266 電子郵件：dbrmt#chih.org　(請將“#”換為“@”)

国产大片黄在线观看,欧美国产激情二区三区,亚洲不卡一卡2卡三卡4卡5卡,国产免费AV片在线观看