OpenAI 今日推出了 Sora,这是一种新的人工智能模型,可以接受基于文本的指令并创建长而迷人的视频。嗯,一分钟长的视频。目前情况,它是一个封闭测试版,仅对受邀开发者开放,代表着人工智能领域全球领导者的进入有些晚。文本到视频并不是一个全新的领域。RunwayML 和Pika Labs等公司已经涉足这一领域有一段时间了,目前情况凭借能够在几秒钟内创造出令人惊叹的视觉效果的模型占据了主导地位。

但总有一个问题:这些视频往往很短,播放时间越长,故事就会失去焦点和连贯性。OpenAI 的目标是通过 Sora 实现一致性,生成高度详细、长达一分钟的视频,这些视频可以无缝流动和发展。这不是一个简单的目标,因为人工智能模型可以有效地从头开始即兴创作每一帧。单个画面中的微小缺陷可能会像滚雪球一样变成一连串的幻觉和不切实际的图像。

不过,OpenAI 似乎已经取得了进展,Sora 展示了流畅、迷人的视觉效果,这是该领域当前玩家迄今为止无法比拟的。示例视频由 OpenAI发布到网上,其中一些已在 YouTube 上非官方重新发布。OpenAI 正在与其他也在测试生成视频领域的人工智能公司展开正面交锋。流行的文本到图像生成器 Midjourney最近宣布它正在开发文本到视频生成器,但没有提供发布日期。另外,Stability AI 最近推出了Stable Video Diffusion,其开源产品能够生成分辨率为 576x1024 的 25 帧视频。

甚至 Meta 也在展示其EMU 视频生成器,这是其将人工智能融入社交媒体和虚拟世界的努力的一部分。Sora 目前情况是限量发行的,OpenAI 允许“视觉艺术家、设计师和电影制作人”获取反馈,它的独特之处在于它如何理解语言。它可以生成生动、高度详细的图像,同时解释书面提示的细微差别。需要特定的相机运动吗?具有真实情感的多个角色?没问题。

Sora 甚至可以在同一视频中的不同镜头之间生成无缝过渡,模仿当今一些视频编辑工具已经做的事情。这是今日发布到 YouTube 上的另一个爱好者视频:即便如此,人工智能驱动的创造力也有其怪癖。索拉还不是一位电影大师。换句话说,可能会发生物理斗争或复杂的因果关系,虽然它已经是最一致的视频生成器之一,但它没有达到绝对保真度的水平,因此出现幻觉是可以预料的。

另外,来自 OpenAI 的 Sora 无疑将是一个受到严格审查的模型。该公司强调其重点关注安全测试和检测工具,以标记潜在有害和误导性内容。OpenAI 正在与其红色团队合作完善其模型,并希望其早期发布策略能够在未来几年中促进合作,构建日益安全的人工智能。

目前情况尚未宣布 Sora 更广泛实施的立即发布日期。原文链接;https://decrypt.co/217729/openai-sora-ai-video-generator-compete-midjourney-pika

发表评论