据了解,Genie的数据集主要是长达20万小时的公开互联网视频,其中重点是2D游戏与机器人视频。同时谷歌方面也表示,“我们的方法是通用的,适用于任何类型领域,且可以扩展到更大的互联网数据集”。
值得一提的是,Genie是在无监督和无标注的情况下进行训练,其可以专门从互联网上的视频中学习控制细粒度,即不仅能识别出哪些图像元素是可控的,还能推断出在生成环境中的潜在动作,并确保这些动作在它创造的不同环境中保持一致,这种潜在动作甚至还可以转移到人类设计的环境中。
据悉,Genie是由三个部分组成,其中包括一个潜在动作模型(Latent Action Model、LAM)、用于推断每对帧之间的潜在动作,一个视频分词器(Tokenizer)、用于将原始视频帧转换为离散token,一个动态模型、用于在给定潜在动作和过去帧token的情况下预测视频的下一帧。
对此Genie团队的负责人Tim Rocktäschel表示,“Genie作为基础世界模型,是人类迈向AGI的旅途中非常重要的一步”。英伟达高级研究科学家、通用具身智能体(Embodied Agent)研究小组负责人Jim Fan也表示,“Sora很好,但是Genie将会是具身智能体的主干之作”,以及“与Sora不同,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024年也将是基础世界模型之年”。
如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!