logo

谷歌发布基础世界模型,能生成可交互虚拟世界


ctrlCV
ctrlCV 2024-03-25 10:00:38 13876 赞同 0 反对 0
分类: 资源 标签: 信创资讯
日前,谷歌DeepMind团队方面公布了全新的AI基础世界模型Genie(精灵)。据了解,Genie拥有110亿参数规模,能够基于用户输入的合成图像、照片、草图等提示,生成像电子游戏一样可以进行互动、游玩的虚拟世界。但截至目前,Genie仅为研究预览版,尚未真正发布。

据了解,Genie的数据集主要是长达20万小时的公开互联网视频,其中重点是2D游戏与机器人视频。同时谷歌方面也表示,“我们的方法是通用的,适用于任何类型领域,且可以扩展到更大的互联网数据集”。

值得一提的是,Genie是在无监督和无标注的情况下进行训练,其可以专门从互联网上的视频中学习控制细粒度,即不仅能识别出哪些图像元素是可控的,还能推断出在生成环境中的潜在动作,并确保这些动作在它创造的不同环境中保持一致,这种潜在动作甚至还可以转移到人类设计的环境中。

据悉,Genie是由三个部分组成,其中包括一个潜在动作模型(Latent Action Model、LAM)、用于推断每对帧之间的潜在动作,一个视频分词器(Tokenizer)、用于将原始视频帧转换为离散token,一个动态模型、用于在给定潜在动作和过去帧token的情况下预测视频的下一帧。

对此Genie团队的负责人Tim Rocktäschel表示,“Genie作为基础世界模型,是人类迈向AGI的旅途中非常重要的一步”。英伟达高级研究科学家、通用具身智能体(Embodied Agent)研究小组负责人Jim Fan也表示,“Sora很好,但是Genie将会是具身智能体的主干之作”,以及“与Sora不同,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024年也将是基础世界模型之年”。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!

评价 0 条
ctrlCV
粉丝 0 资源 37 + 关注 私信
最近热门资源
从数据容灾到业务级容灾:全面解析容灾备份技术体系  1078
最近下载排行榜
从数据容灾到业务级容灾:全面解析容灾备份技术体系 0
作者收入月榜
1

prtyaa 收益349.54元

2

风晓 收益207.64元

3

IT-feng 收益197.2元

4

777 收益169.69元

5

zlj141319 收益168.41元

6

1843880570 收益153.27元

7

信创来了 收益103.7元

8

Fhawking 收益99.55元

9

克里斯蒂亚诺诺 收益91.08元

10

技术-小陈 收益78.9元

请使用微信扫码