《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業(yè)界動態(tài) > 智源發(fā)布原生多模態(tài)世界模型Emu3

智源發(fā)布原生多模態(tài)世界模型Emu3

宣稱實現(xiàn)圖像、文本、視頻大一統(tǒng)
2024-10-22
來源:IT之家

10 月 21 日消息,智源研究院今日發(fā)布原生多模態(tài)世界模型 Emu3。該模型只基于下一個 token 預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成。官方宣稱實現(xiàn)圖像、文本、視頻大一統(tǒng)。

在圖像生成任務中,基于人類偏好評測,Emu3 優(yōu)于 SD-1.5 與 SDXL 模型。在視覺語言理解任務中,對于 12 項基準測試的平均得分,Emu3 優(yōu)于 LlaVA-1.6。在視頻生成任務中,對于 VBench 基準測試得分,Emu3 優(yōu)于 OpenSora 1.2。

0.jpg

據(jù)介紹,Emu3 提供了一個強大的視覺 tokenizer,能夠將視頻和圖像轉換為離散 token。這些視覺離散 token 可以與文本 tokenizer 輸出的離散 token 一起送入模型中。與此同時,該模型輸出的離散 token 可以被轉換為文本、圖像和視頻,為 Any-to-Any 的任務提供了更加統(tǒng)一的研究范式。

0.jpg

▲ Emu3 生成的圖像

Emu3 研究結果證明,下一個 token 預測可以作為多模態(tài)模型的一個強大范式,實現(xiàn)超越語言本身的大規(guī)模多模態(tài)學習,并在多模態(tài)任務中實現(xiàn)先進的性能。通過將復雜的多模態(tài)設計收斂到 token 本身,能在大規(guī)模訓練和推理中釋放巨大的潛力。

目前 Emu3 已開源了關鍵技術和模型


Magazine.Subscription.jpg

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 一个人免费视频观看在线www| 亚洲成av人片在线观看无码不卡| 国产乱码精品一区二区三区中| 女人高潮特级毛片| 国产另类的人妖ts视频| chinese国产xxxx实拍| 日本高清xxx| 亚洲欧美日韩成人高清在线一区| 老师好大好爽办公室视频| 国产精品爆乳奶水无码视频| 一级做性色a爰片久久毛片免费| 最新国产精品好看的国产精品 | 99精品偷自拍| 无码专区永久免费AV网站| 亚洲一区二区久久| 爱情岛论坛亚洲品质自拍视频| 国产AV国片精品有毛| 欧美交换性一区二区三区| 在线免费观看h片| 三级午夜三级三点在看| 日韩三级在线电影| 亚洲免费视频播放| 激情综合色五月丁香六月亚洲| 吃奶呻吟打开双腿做受视频| 香港经典a毛片免费观看看| 国产精品午夜剧场| 99国产精品免费观看视频| 成人国产在线24小时播放视频| 久久精品国产一区二区三区肥胖 | 国产一区二区精品久久凹凸| 久久综合九色综合欧美就去吻| 国产香港特级一级毛片| www.一级毛片| 成年人视频免费在线观看| 久久天堂成人影院| 欧洲美熟女乱又伦av影片| 亚洲欧美日韩综合久久久久| 看免费的黄色片| 国产FREEXXXX性麻豆| 鸡鸡插屁股视频| 国产精品久久久久国产精品|