现在看来,这件事发生的时间可能比我想象的要早非常多。OpenAI——ChatGPT 的创建者,ChatGPT 是引发当前生成式人工智能热潮的聊天机器人——刚刚宣布了自己的文本到视频模型 Sora。

说这个结果震惊了人工智能界是轻描淡写的。虽然我们还不能为自己使用它,但视频展示了一个女人在城市和淘金时代的美国小镇中行走的接近照片真实感的序列,这些序列是由简单的文本提示生成的。

据我采访过的人说,这使得他们在生成视频方面比人们想象的领先了两三年。这只是人工智能革命将以比许多人预期快得多的速度发生的又一个迹象。

但生成视频虽然在技术上无疑令人惊叹,但它所带来的伦理和社会挑战超出了自动创建文本、图像和声音所带来的挑战。那么,让我们来看看它是什么,它有啥作用,也许最重要的是,它对于一个不可避免地变得越来越难以区分真实和数字生成的世界意味着什么。

那么索拉是什么?

基本上,Sora 之于视频就像 ChatGPT 之于写作,而 Dall-E 3 之于图像生成。你输入你想看的内容,它就会全速地出现在你的眼前。目前情况已经播放的视频都没有任何声音,但考虑到人工智能声音和音乐生成的进步,我们只能假设这很快就会出现。

生成式人工智能视频创作者并不是全新的事物。我在本文开头链接的文章中概述了去年左右出现的一些内容。不过,大多数情况下,当它们生成文本、叠加和效果时,它们不会生成实际的视频动画。但是,也有一些例外,例如Runway。在这个早期阶段,虽然令人印象深刻,但它不会给我们提示下一个玩具总动员。但潜力差不多是无限的。电影制作人可以用它来可视化概念和场景或生成特效。教师可以创建身临其境的历史娱乐,制造商可以用它来创建原型和演示。

目前情况,Sora 可以生成长达一分钟的视频。它不仅仅是简单的图像生成(如果我们现在必须认为这很简单)创建一组连续的图像来给人运动的印象;它能够跟踪对象的位置,以便它们与其他对象真实一致地移动,例如在它们的前面或后面移动。甚至可以执行复杂的操作,例如当物体移出摄像机时“记住”物体,以便当它们移回视野中时可以准确地重新创建它们。当然,它并不完美,OpenAI 承认它会产生不一致的情况,例如不遵循物理定律或因果关系的对象。但从我们所看到的来看,这是一项令人惊叹的技术,让我们可以一睹我们很快就能做到的事情!

它是如何工作的?

与 Dall-E 和其他图像生成器一样,Sora 本质上是一个扩散模型,这意味着它从随机“噪声”创建图像,并通过将它们转换为与其提示相匹配的图像来逐渐去随机化它们。

经过数千或数万步,组成视频的图像变得更加清晰。

真正使它特别的是能够理解场景中的物体(人或其他任何东西)如何与其他一切实际互动。这可能意味着当物体穿过水时,水会使物体变湿,或者球落下并在掉落时以逼真的方式在地板上移动。

正如 ChatGPT 从上下文中理解单词,学习它们如何与其他单词组合在一起来传达含义一样,Sora 也了解事物在现实世界中的行为和行为方式。OpenAI 没有详细说明它所训练的数据,但很可能是非常多非常多小时的现实世界视频片段,它可以从中了解物品、人、动物和风景如何移动和交互。除了生成全新的镜头之外,它还可以继续现有的视频并从新的角度重新创建现有的镜头。

世界准备好迎接生成视频点播了吗?

索拉提供了惊人的可能性。但让任何人都能制作他们想要的任何内容的真实视频显然并非没有危险。

诈骗和网络钓鱼攻击可能会变得更加复杂,例如,通过使用深度伪造视频使欺诈活动看起来更加合法或可信。我们已经看到了这一点,人工智能配音覆盖在名人的镜头上,以营造出他们认可的印象。

制作具有令人信服的真实人物相似度的未经同意的视频也将不可避免地变得更加容易,这些视频可用于造成伤害或勒索。我相信我们还会看到它被用来试图颠覆民主进程并传播假新闻和虚假信息,目的是破坏对政客、政府或机构的信任。

OpenAI 告诉我们,它已经在算法中内置了保护措施,以防止许多此类用途,并且还在开发自己的工具来帮助识别有害内容。但正如我们在 ChatGPT 中看到的那样,很可能会找到这些问题的解决方法,或者在没有适当保护措施的情况下出现山寨产品。解决这些问题需要共同努力,包括教育、立法以及围绕负责任、道德的人工智能使用采用强有力的框架。可悲的是,正如从机械化到汽车和计算的每一项变革性技术的情况一样,造成一些损害似乎是不可避免的。

但现在这个精灵已经脱离了瓶子,这意味着负责任的人工智能用户和倡导者需要确保社会有效管理这些风险,同时也使其变革潜力得以实现。原文链接;https://www.forbes.com/sites/bernardmarr/2024/02/20/did-openai-sora-just-kickstart-the-era-of-generative-video/?sh=154264f31f85

发表评论