游戏AI“精灵”！谷歌又出新王炸，新模型Genie粉末登场：一张图，玩转交互式世界

格隆汇 02-27 22:04

当红炸子鸡Sora 热尚未褪去，谷歌的Genie又来了。

一张图，便可召唤一个交互式世界，谷歌这次出手又是一个王炸，直杠Open AI。

日前，谷歌发布了110亿参数的全新AI基础世界模型——Genie (生成式交互环境，Genie 中文意为“精灵”)。

与之前仅关注世界生成的模型不同是：Genie 允许用户与创建的环境进行交互。它可以通过文本、合成图像、照片甚至草图生成可玩的交互式环境和可控虚拟世界。

谷歌表示，Genie开启了“图/文生成交互世界”的时代，还将成为实现通用AI Agent的催化剂。

值得一提的是，Genie的问世代表了生成式人工智能的一个重大进步，也让人工智能在虚拟世界的散发出无限可能性。

据谷歌介绍，Genie AI 是一个相对较小的模型，拥有 110 亿个参数。

它由时空视频分词器、自回归动力学模型和简单且可扩展的潜在动作模型组成。

Genie 在大量公开的互联网视频数据集上进行了没有任何动作标签的训练，可以将任何图像（无论是现实世界的照片、草图、人工智能生成的图像还是绘画）转换为简单的 2D 平台游戏。

最大的独特之处是，它可以通过无监督学习来理解游戏世界中角色的移动、控制和行动，并根据用户操作预测未来帧，从而创建功能性和可玩性的体验。

简而言之，Genie 能“自学成才”。

谷歌DeepMind团队指出，它的用途广泛，适用于各个领域，且可以扩展到更大的互联网数据集。

此外谷歌还强调，这种新模型为未来的人工智能打开了大门，让他们可以“在新的、生成的世界的永无止境的课程中”接受培训。

与Sora相比，Genie进步在哪？

不久前，OpenAI发布了首个文生视频模型，Sora一出，即震惊四座。

它不仅能生成逼真的人工智能视频，还能够创建持久的角色、风格和环境。Open AI更是将称其为“世界模拟器”。

于是，也有网友称，Genie是谷歌对Sora不痛不痒的回击。

不过，谷歌Genie团队负责人Tim Rocktäschel则称，不可否认，OpenAI的 Sora 确实令人印象深刻，视觉上令人惊叹，但世界模型需要“行动”。

Genie 是一个动作可控的世界模型，但完全不受视频监督的训练，这是迈向AGI通用世界模型的充满希望的一步。

英伟达科学家Jim Fan也表示，与Sora不同的是，Genie实际上是一个由行动驱动的世界模型，具有推断行动的能力。2024年也将是基础世界模型之年。

“Sora很好，但是Genie将会是具身智能体的主干之作”。

作为一个基础世界模型，可以说，Genie 处于可以生成和管理虚拟环境的人工智能系统的最前沿。

它的发展标志着基础世界模型向前迈出了重要一步，这不仅仅是游戏技术的进步，也标志着人工智能系统能力的更广泛转变。

眼下，AI大模型战场正“烽烟四起”，硅谷巨头们的厮杀甚是激烈。前几天，谷歌才刚刚推出了开源大模型——Gemma，打响了AI 开源之战。

但硅谷大厂们，在这轮AI浪潮上也已经卷出新高度。除了谷歌一连串“输出”之外，微软也在加大“火力”。

继OpenAI之后，微软刚刚又将法国初创公司Mistral AI纳入麾下。

作为一家成立仅10个月的初创公司，Mistral AI发布的Mistral Large模型性能已经直逼GPT-4。

据悉，在常用基准测试中，Mistral Large的表现仅次于GPT-4，超过了GPT-3.5、谷歌的Gemini Pro和Meta的LLaMA 2 70 B。

这一次，谁会成为“下一个OpenAI”呢？

市场资讯