北京时间12月5日消息,谷歌旗下AI研究部门DeepMind今日发布了一款名为Genie 2的新模型,可通过单张图片和文字描述生成“无尽”的可交互的3D世界。
Genie 2是DeepMind今年早些时候发布的Genie的继任者,它可以从单个图像和文本描述,例如“林中可爱的人形机器人”,生成交互式实时场景。在这方面,它类似于“AI教母”李飞飞旗下公司World Labs和以色列初创公司Decart正在开发的模型。
DeepMind称,Genie 2可以生成丰富多样的3D世界,例如户可以使用鼠标或键盘进行跳跃和游泳等。经过视频训练,该模型能够模拟对象交互、动画、照明、物理、反射和NPC(非玩家角)等。
DeepMind称,Genie 2可以生成具有不同视角的连贯世界,如第一人称和等距视图,持续时间长达一分钟,其中大多数持续10秒到20秒。Genie 2的许多模拟看起来像AAA视频游戏,原因很可能是模型的训练数据包含了流行游戏的播放过程。
DeepMind在一篇博客文章中表示:“Genie 2通过按下键盘上的按键、识别角色并正确移动,从而智能地响应所采取的行动。例如,该模型可以计算出用箭头键来移动机器人,而不是树木或云。”
当然,目前使用Genie 2创建的游戏并不会特别有趣,因为它们每隔一分钟左右就会抹去你的进度。这就是为什么DeepMind将该模型定位为一种研究和创意工具。但不管怎样,谷歌已将越来越多的资源投入到其世界模型研究中,这有望成为AI领域的下一件大事。
发表评论