然而,今日所有人都在谈论的是该公司的文本到视频人工智能工具Sora的意外发布,该工具允许用户通过将文本提示转换为长达一分钟的视频来将他们的话变成现实。

文本转视频生成器是否是继AI艺术生成器和AI语音生成器之后生成AI能力的一个进步?Sora 的推出对于每个从事视频创作的人来说意味着什么?

让我们仔细看看 Sora 是什么以及它是否值得大肆宣传。

OpenAI 的 Sora 推出了文本转视频工具,通过让所有人都能进行视频制作来实现创意表达的民主化。
对于 Sora,将富有想象力的叙述变为现实的唯一限制是用户的想象力,从而消除了创作过程中的传统障碍。
Sora 对物理世界的高级模拟及其对语言的深刻理解使得能够通过简单的文本提示创建复杂、逼真的场景。
Sora 并非没有缺陷,它所表现出的故障和幻觉凸显了模拟现实的挑战。

什么是 Sora 以及它是如何工作的?

Sora 是一个 AI 模型,可以根据文本提示创建现实且富有想象力的场景。Sora 并没有取代创造力,而是降低了进入门槛,让任何人都能将他们的视频创意变为现实。

理论上,唯一的限制是你的想象力。因此,如果您输入“猛犸象和蝙蝠侠在东京熙熙攘攘的街道上漫步,一只好奇的狗在附近空荡荡的小巷里漫步”,Sora 就会在一分钟的视频中将您的想法变为现实。

Sora 因其精心模拟运动中的物理世界的能力而脱颖而出,创造出视觉上令人惊叹的场景和充满复杂角色、特定动作和详细背景的叙事。

无论是从头开始生成视频、静态图像动画还是扩展现有素材,Sora 都承诺将创造力和现实主义无缝融合,让每个人只需按几下按键即可进行视频制作。

Sora 准备好使用了吗?我可以在哪里尝试?

如果您发现自己在搜索“我该如何尝试 Sora?” 您必须等待才能使用新的文本到视频工具。

尽管 OpenAI 公开了 Sora 的首次现身,但它目前情况正处于红队阶段,该工具正在接受测试,以防止生成有害或不合适的内容。

根据OpenAI开发者论坛的讨论,目前情况无法请求访问。

“我完全理解为什么你们都很兴奋,我也是。一旦有可用的等候名单,我们就会发布,”开发商回答道。

但让我们看看到目前情况为止我们所知道的情况。

Sora 与其竞争对手相比如何?

我们需要考虑的不仅仅是使用 Sora 和其他类似的工具来生成视频内容。这是关于重新定义我们构思和制作视觉叙事的方式。

Sora 的核心旨在理解和模拟运动中的物理世界。与它的前辈和当前竞争对手不同,Sora 可以生成长达一分钟的视频,保持令人印象深刻的视觉质量并严格遵守用户的提示。这种能力标志着向更加动态、引人入胜和真实的数字故事讲述迈进。Sora 对语言的深刻理解和对现实世界物理的高级模拟使其与众不同。

这种组合可以创建复杂的场景,包括多个角色、特定类型的运动以及主体及其背景的准确细节。

对于创意专业人士来说,这意味着在将他们的愿景变为现实时拥有前所未有的控制力和忠诚度。

Sora 的误用保护机制和无限的用例

然而,Sora 的与众不同之处不仅仅在于其技术实力。

OpenAI 对安全、合乎道德的使用以及通过不同用户(包括视觉艺术家、设计师和电影制作人)的反馈进行持续改进的承诺,强调了负责任的 AI 开发方法。

通过与红队成员合作评估关键领域的危害或风险并纳入检测分类器,OpenAI 旨在减少潜在的滥用,并确保 Sora 的功能被用于积极和创造性的目的。

Sora 的现实世界应用潜力扩展到需要详细模拟物理交互的领域,让我们得以一睹人工智能辅助内容创作的未来。

它能够根据文本提示生成视频或扩展现有视频,为讲故事、教育、娱乐等提供了多功能工具。

揭开文本转视频模型的幻觉

当测试人员开始尝试这种新的人工智能驱动的文本到视频工具时,必须承认该工具并非没有缺陷。

用户已经在 Sora 生成的视频中观察到一系列故障和幻觉,凸显了人工智能的能力与我们体验到的无缝现实之间的显着差距。

例如,“考古学家发现一把塑料椅子莫名其妙地漂浮在场景周围”这样的场景抓住了这些梦幻般的不一致的本质。

这些奇特的物理故障,例如动物和人在人群场景中自发出现和消失,暗示人工智能难以准确模拟现实世界的物理现象,表明这些错误是模型处理的伪影,而不是其训练数据的反映在。Sora 制作带有超现实错误的视频的现象让人想起语言学习模型(LLM) 中所谓的幻觉,即输出显然偏离逻辑或预期模式。这些不仅仅是怪癖,而是表明该模型在理解和复制物理世界的复杂性方面的潜在局限性。

从漂浮的椅子到消失得无影无踪的人物,观察到的故障凸显了弥合人工智能生成的内容与实体细致入微、可预测的现实世界行为之间差距的挑战。尽管 OpenAI 和 Sora 取得了令人印象深刻的进步,但这些特性提醒我们,实现人工智能系统的道路还很长,这些系统可以真正掌握和渲染我们物理现实的复杂性,而不会屈服于这些梦幻般的畸变。

但毫无疑问,我们正在看到一个非常不同的未来。

利用人工智能视频工具行善的责任

当我们准备进入数字颠覆的新时代时,文本到视频的人工智能工具的影响可能会吞噬整个行业。

例如,了解价值 54.3 亿美元的全球股票视频市场如何与最终可能使股票素材提供商过时的工具竞争是很困难的。很容易理解为什么好莱坞编剧的罢工只是众所周知的冰山一角。

许多人现在会思考 Sora 对摄像师、导演和电影制作人的长远未来意味着什么。

例如,许多创意人员目前情况对根据文本提示生成一分钟的视频感到兴奋。但尝试想象一下 2034 年人工智能工具的威力,以及在几分钟内生成长达 1-2 小时的电影、广告和电视节目的可能性,完全绕过传统工作室。

我们正在见证内容创作领域巨变的开始,它正在重塑我们所知的娱乐结构。OpenAI 的最新版本应该及时提醒人们,有多少人低估了人工智能将改变一切的程度。

去年,许多人谈论GPT-4 如何轻松击败 90%试图通过律师考试的律师。但 12 个月后,我们正在讨论人工智能生成的广告不可避免的到来及其对广告行业和人类创作者的影响。今年,代表世界总人口约 49%的 64 个国家将参加选举。

人工智能可以创造虚构的新闻故事,或者进一步增加事件的热度,让叙事变得更容易。视频本来就受到人们的信任,可以从不同的角度快速制作,在网上传播,然后由机器人使用类似于 ChatGPT 的平台通过评论、讨论和分享来放大。无限、个性化、交互式多媒体内容的承诺,包括像个性化色情这样有争议的话题,是一把双刃剑。

虽然创新和个性化体验的潜力是无限的,但滥用和道德困境的可能性也是无限的。能够通过量身定制的内容来欺骗大多数人的前景不仅是理论上的担忧,而且是切实可行的现实。这种权力掌握在少数深入了解这些技术的人手中,同时也承担着巨大的责任。

当我们驾驭这个新时代时,我们必须运用这些知识,致力于诚信和改善社会。我们今日做出的决定将塑造我们数字未来的道德格局,敦促我们明智地采取行动,确保人工智能的进步对我们的集体体验做出积极贡献。

文化大革命:人工智能在民主化创造力中的作用

将人工智能融入创意产业可以说标志着向包容性和多样性的变革性转变。

它正在打破历史上限制少数特权阶层创造性表达的长期障碍。这个以创造力民主化为标志的新时代不仅涉及技术进步,还涉及技术进步。这是一种文化复兴,赋予全球各地的个人权力,无论其经济状况、地理位置或技术实力如何。

长期以来,不同的思想家和少数派一直被边缘化,因为他们无力承担 Adob​​e 等软件订阅的高昂费用,也无力承担接受五年正规教育来掌握创意软件套件的时间。

现在,人工智能创造了公平的竞争环境,提供了简化复杂创意流程的工具,使任何有远见的人都可以将自己的想法变为现实。从消除专业软件陡峭学习曲线的人工智能设计平台到创作定制配乐的音乐创作工具,进入的障碍正在瓦解。OpenAI Sora 的推出体现了文本转视频技术的巨大潜力和固有的挑战。

Sora 承诺将视频制作民主化,作为一种突破性的人工智能视频工具,提供一个平台,让想象力成为创作的唯一界限。

但我们也注意到该工具的缺陷,例如故障和幻觉。这凸显了人工智能的潜力与当今现实之间的差距。

在未来,内容创作可以被更广泛的受众所接受,培育更具包容性的创意社区是向前迈出的一大步。但随着我们前进,我们有责任以合乎道德的方式利用这些进步,确保它们为社会做出积极贡献,并且不会在不知不觉中加剧现有的不平等。原文链接:https://www.techopedia.com/sora-text-to-video-generator-by-openai-explained

发表评论