‌‍‍‬‍‌‌‬‍⁠⁠‬‍⁠⁠‍‬‬‬‌‬‌⁠‬谷歌推出可与 Sora 匹敌的高清人工智能视频生成器 Veo

输入“/”快速插入

添加图标

添加封面

谷歌推出可与 Sora 匹敌的高清人工智能视频生成器 Veo

佐为

今天创建

本周二，在谷歌 I/O 2024 大会上，谷歌发布了新的人工智能视频合成模型 Veo，它可以根据文字、图像或视频提示创建高清视频，类似于 OpenAI 的 Sora。它能生成超过一分钟的 1080p 视频，并能根据文字说明编辑视频，但尚未广泛发布使用。

据报道，Veo 能够使用文本命令编辑现有视频，保持各帧的视觉一致性，并根据单个提示或形成叙事的一系列提示生成长达 60 秒以上的视频序列。该公司表示，它可以生成详细的场景，并应用电影效果，如时空交错、空中拍摄和各种视觉风格。

自 2022 年 4 月DALL- E 2 发布以来，我们看到了一系列新的图像合成和视频合成模型，这些模型旨在让任何能够输入文字描述的人都能创建出详细的图像或视频。虽然这两项技术都尚未完全完善，但人工智能图像和视频生成器的能力一直在稳步提升。

今年二月，我们报道了 OpenAI 的 Sora 视频生成器的预览，当时许多人认为它代表了业界最好的人工智能视频合成技术。它给泰勒-佩里（Tyler Perry）留下了深刻印象，以至于他暂停了电影工作室的扩建。然而，到目前为止，OpenAI 还没有提供该工具的通用访问权限，而是将其使用范围限制在特定的测试人员群体中。

现在，Google 的 Veo 乍一看似乎能够生成与 Sora 类似的视频。我们没有亲自试用过，所以只能通过该公司在其网站上提供的精选演示视频来判断。这意味着任何人在观看这些视频时都应谨慎对待谷歌的说法，因为生成的结果可能并不典型。

Veo 的示例视频包括牛仔骑马、郊区街道的快速跟踪拍摄、烤肉串、向日葵开放的延时拍摄等。其中明显缺少对人类的详细描述，而人工智能图像和视频模型要生成没有明显变形的人类图像和视频历来都很困难。

谷歌表示，Veo 建立在公司之前的视频生成模型基础之上，包括生成查询网络 (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere。为了提高质量和效率，Veo 的训练数据包括更详细的视频字幕，并使用压缩的 "潜在 "视频表示法。为了提高 Veo 的视频生成质量，谷歌在用于训练 Veo 的视频中加入了更详细的字幕，使人工智能能够更准确地解释提示。

关于谷歌从哪里获得 Veo 的训练数据，目前还没有任何消息（如果非要猜的话，YouTube 很可能参与其中）。但谷歌表示，它对 Veo 采取了 "负责任 "的态度。据该公司称，"Veo 创建的视频会使用 SynthID（我们用于水印和识别人工智能生成内容的尖端工具）进行水印处理，并通过安全过滤器和记忆检查流程，以帮助降低隐私、版权和偏见风险"。

跳转至首条评论

真诚点赞，手留余香

0 字