OpenAI 推出了其最新的人工智能系统,一个名为 Sora 的程序,可以将文本描述转换为逼真的视频。视频生成模型激发了人们对先进人工智能技术的兴奋,同时人们也越来越担心人工深度伪造视频如何在全球关键的选举年加剧错误信息和虚假信息。

Sora AI 模型目前情况可以单独使用文本指令或文本与图像相结合来创建长达 60 秒的视频。一段演示视频以文字提示开头,描述“一位时尚女性如何走在充满温暖霓虹灯和动画城市标牌的东京街道上”。其他例子包括在雪地里嬉戏的狗、沿着道路行驶的车辆以及更奇幻的场景,例如鲨鱼在城市摩天大楼之间的半空中游泳。

“与生成人工智能中的其他技术一样,没有理由相信文本到视频不会继续快速改进——让我们越来越接近难以区分真假的时代。”加州大学伯克利分校的哈尼·法里德 (Hany Farid)说道。“这项技术如果与人工智能驱动的语音克隆相结合,可以在创建人们从未做过的事情的深度伪造方面开辟一条全新的前沿。”

Sora 部分基于 OpenAI 现有的技术,例如图像生成器 DALL-E 和 GPT 大语言模型。文本到视频的人工智能模型在真实性和可访问性方面落后于其他技术,但 Sora 的演示比以前的演示“可信度更高,卡通化程度更低”,联合创始人雷切尔·托巴克 (Rachel Tobac )表示SocialProof Security 是一个专注于社会工程的白帽黑客组织。

为了实现更高水平的真实感,Sora 结合了两种不同的人工智能方法。第1个是扩散模型,类似于 DALL-E 等 AI 图像生成器中使用的模型。这些模型学习逐渐将随机图像像素转换为连贯图像。第2种人工智能技术称为“变压器架构”,用于对顺序数据进行上下文关联和拼凑。例如,大型语言模型使用转换器架构将单词组装成通常可理解的句子。在这种情况下,OpenAI 将视频剪辑分解为 Sora 的 Transformer 架构可以处理的视觉“时空补丁”。

Sora的视频中仍然存在非常多错误,比如行走的人的左右腿交换了位置,椅子随机漂浮在半空中,或者被咬过的饼干神奇地没有咬痕。尽管如此, NVIDIA 高级研究科学家Jim Fan在社交媒体平台 X 上称赞 Sora 是一个可以模拟世界的“数据驱动的物理引擎”。

普林斯顿大学的阿尔温德·纳拉亚南 (Arvind Narayanan)表示,Sora 的视频在描绘具有大量运动的复杂场景时仍然显示出一些奇怪的故障,这表明此类深度伪造视频目前情况可以被检测到。但他也警告说,从长远来看,“我们需要找到其他方式来适应社会”。

OpenAI 推迟了公开 Sora,同时进行“红队”演习,专家们试图打破人工智能模型的安全措施,以评估其被滥用的可能性。OpenAI 发言人表示,目前情况测试 Sora 的精心挑选人员是“错误信息、仇恨内容和偏见等领域的专家”。

这项测试至关重要,因为人造视频可能会让不良行为者生成虚假镜头,以便骚扰某人或影响政治选举。人工智能生成的深度伪造品引发的错误信息和虚假信息是学术界、商界、政府和其他部门的领导者以及人工智能专家的主要担忧。

“索拉绝对有能力制作可以欺骗普通人的视频,”托巴克说。“视频不需要完美才可信,因为许多人仍然没有意识到视频可以像图片一样容易被操纵。”

Tobac 表示,人工智能公司将需要与社交媒体网络和政府合作,以应对 Sora 向公众开放后可能出现的大量错误信息和虚假信息。防御措施可能包括为人工智能生成的内容实施唯一标识符或“水印”。

当被问及 OpenAI 是否有计划在 2024 年让 Sora 得到更广泛的使用时,OpenAI 发言人称该公司“在 OpenAI 的产品中使用 Sora 之前采取了几项重要的安全措施”。例如,该公司已经使用自动化流程,旨在防止其商业人工智能模型生成极端暴力、性内容、仇恨图像以及真实政客或名人的描述。今年参加选举的人数比以往任何时候都多,这些安全措施将至关重要。

原文链接:https://www.newscientist.com/article/2417639-realism-of-openais-sora-video-generator-raises-security-concerns/

发表评论