Meta開源的新模型ImageBind,是第一個能夠一次從6種不同方式結(jié)合信息的AI模型。 核心概念是將 6 種類型的數(shù)據(jù)數(shù)據(jù)鏈接到單一的 embedding space,包括視覺數(shù)據(jù)(圖片和視頻的形式)、熱(像是紅外線影像)、文字、音頻、深度信息,以及最耐人尋味的 IMU(Inertial Measurement Unit,慣性測量單元)讀數(shù)。
ImageBind 模型的概念架構(gòu)
這聽起來有點抽象,但正是這個概念支撐起近來生成式 AI 的蓬勃發(fā)展。
比方說,Midjourney、Stable Diffusion、DALL-E 等文字轉(zhuǎn)成圖片的 AI 工具,在模型訓(xùn)練階段就將文字和圖片鏈接在一起,它們在視覺數(shù)據(jù)中尋找模式,同時將信息和圖片描述鏈接在一起。 這就是這些 AI 工具能夠根據(jù)用戶的文字提示產(chǎn)生圖片的原因,許多同樣以文字提示產(chǎn)生視頻或音頻的 AI 工具也是如此。
在這概念下,未來的 AI 系統(tǒng)統(tǒng)能以同樣的模式交叉引用數(shù)據(jù)資料。 比方說,想象有個新的虛擬現(xiàn)實設(shè)備,它不僅可以產(chǎn)生聲音、視覺影像,還能產(chǎn)生物理環(huán)境中的動作感受。 當(dāng)你想要模擬一趟海上之旅,虛擬現(xiàn)實系統(tǒng)不僅讓你置身在一艘船上,背景有海浪聲,還會讓你感受腳下的甲板搖晃、吹來涼爽的海風(fēng)等等。
Meta 認為其他感官的數(shù)據(jù)資料,未來可望加入模型當(dāng)中,例如觸摸、口語、氣味或者大腦 fMRI(功能性磁振造影)等。
雖然ImageBind只是Meta旗下一項項目,還沒有具體應(yīng)用成果,卻指出生成式AI未來一大發(fā)展方向,同時對應(yīng)到Meta重金投入的虛擬現(xiàn)實、混合實境以及元宇宙等愿景。
ImageBind 的研究不僅很有意思,Meta 更是堅定站在開源陣營當(dāng)中,相較于 OpenAI、Google 等公司有不同做法。 ImageBind 也延續(xù) Meta 既有策略,向開發(fā)者和研究人員公開研究成果。