新聞中心
News Center
12月5日消息,美國(guó)時(shí)間周三,谷歌旗下的人工智能研究機(jī)構(gòu)DeepMind發(fā)布了新模型Genie 2。這款升級(jí)版模型能夠生成“無(wú)窮無(wú)盡”的多樣化3D世界,為交互式實(shí)時(shí)場(chǎng)景的創(chuàng)建開(kāi)辟了新途徑。Genie 2是今年早些時(shí)候推出的Genie模型的升級(jí)版本。通過(guò)輸入一張圖片和一段文字描述,例如“一個(gè)可愛(ài)的機(jī)器人置身于茂密的森林中”,Genie 2可以構(gòu)建出一個(gè)實(shí)時(shí)互動(dòng)的3D場(chǎng)景。這一能力與李飛飛創(chuàng)立的World Labs和以色列初創(chuàng)公司Decart開(kāi)發(fā)的類(lèi)似模型頗為相似。
DeepMind表示,Genie 2能夠生成“極其豐富多樣”的3D世界,用戶可以通過(guò)鼠標(biāo)或鍵盤(pán)在這些世界中完成跳躍、游泳等操作。通過(guò)大量視頻數(shù)據(jù)訓(xùn)練,該模型具備模擬物體交互、動(dòng)畫(huà)效果、光照、物理現(xiàn)象、反射效果以及“NPC”(非玩家角色)行為的能力。Genie 2生成的許多場(chǎng)景在視覺(jué)效果上堪比3A級(jí)視頻游戲。這一現(xiàn)象可能源于模型訓(xùn)練數(shù)據(jù)中包含了熱門(mén)游戲的游玩記錄。然而,出于競(jìng)爭(zhēng)和保密原因,DeepMind與其他許多AI實(shí)驗(yàn)室一樣,并未透露其具體的數(shù)據(jù)來(lái)源和訓(xùn)練方法。
Genie 2的推出也引發(fā)了對(duì)知識(shí)產(chǎn)權(quán)的討論。作為谷歌的子公司,DeepMind可以不受限制地訪問(wèn)YouTube,而谷歌此前也曾暗示,其服務(wù)條款允許將YouTube視頻用于模型訓(xùn)練。然而,Genie 2是否在生成內(nèi)容時(shí)無(wú)意間構(gòu)成了對(duì)原始游戲的“未經(jīng)授權(quán)復(fù)制”,仍需法律裁決。
DeepMind表示,Genie 2能夠從不同視角(如第一人稱(chēng)視角和等距視角)生成連貫的虛擬世界,這些場(chǎng)景最長(zhǎng)可持續(xù)一分鐘,大多數(shù)情況下為10至20秒。Genie 2能夠根據(jù)鍵盤(pán)操作作出智能反應(yīng),精準(zhǔn)識(shí)別角色并正確移動(dòng)。例如,模型可以判斷方向鍵應(yīng)控制機(jī)器人的移動(dòng),而非樹(shù)木或云朵。
13517270458