OpenAI 首席执行官 Sam Altman 在社交媒体平台 X 上宣布推出视频转文本平台 Sora。他说 – “这是 Sora,我们的视频生成模型 – Sora。今日,我们开始红队并为有限数量的创作者提供访问权限。”

除了生成带有文本指令的视频之外,模型还可以获取现有图像并生成视频。它可以准确且注重细节地为图像内容制作动画。该模型还获取现有视频并对其进行扩展,甚至填充缺失的帧。

Altman 赞扬了开发该产品的团队,并补充说,他们专注于教导人工智能理解和模拟运动中的物理世界。OpenAI 的负责人补充说,目标是训练模型来帮助人们解决需要现实世界交互的问题。

创意产业平台

该平台目前情况允许设计师、电影制作人和视觉艺术家访问,以获得有关推进模型的反馈。Sora 遵循一种扩散模型,从看起来像静态噪声的视频开始生成视频。通过多个步骤消除噪声,这种情况会逐渐发生变化。

“通过一次为多个帧提供模型预测,我们解决了确保拍摄对象保持不变的挑战性问题,即使它暂时离开视野。与 GPT 模型类似,Sora 使用变压器架构,释放出卓越的扩展性能,”该公司博客表示。

Sora 目前情况将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于 GPT 中的令牌。通过统一数据的表示方式,他们可以在更广泛的视觉数据上训练扩散变换器。这涵盖了持续时间、宽高比和分辨率。

Sora 基于 DALL-E 和 GPT 模型构建,使用 DALL-E 的重述方法。这意味着它可以为视觉训练数据生成高度描述性的标题。因此,该模型可以更好地遵循视频中用户的文本指令。

“Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示,”该公司的博客说明中说道。该说明补充说,红队人员将可以使用 Sora 来评估关键区域的伤害或风险。该博客补充道:“我们正在尽早分享我们的研究进展,以便开始与 OpenAI 之外的人员合作并获取反馈,让公众了解即将出现的人工智能功能。”

了解具体情况

该平台的有趣之处在于,它可以创建特定类型的动作、多个角色,甚至背景和主题的准确细节。当前的模型可以理解用户在提示中提出的要求以及这些提示如何存在于现实世界中。

凭借对语言的深刻理解,Sora 可以解释提示,并生成带有情感的引人注目的角色。它还可以在单​​个生成的视频中创建多个镜头,可以准确地描绘角色和视觉风格。

然而,也有弱点。该模型可能仍然难以模拟复杂场景的物理原理,并且可能会发现很难理解特定的原因和影响。例如,如果一个人咬了一口饼干,咬痕可能会丢失。

该模型尚未理解空间细节——它混淆了左右方向,并且可能会与左方向和右方向作斗争。它还可能难以精确描述随着时间推移发生的遵循特定摄像机轨迹的事件。

“在 OpenAI 的产品中使用 Sora 之前,我们将采取几个重要的安全措施。我们正在与红队成员合作,他们是错误信息、仇恨内容和偏见等领域的领域专家,他们将以对抗性方式测试该模型。”

AI战斗的世界

数字景观正在以前所未有的速度发展。人工智能 (AI)、元宇宙和 Web3 激发了全球领导者和科技巨头的想象力。在会议室和虚拟空间中回响的各种流行语中,有一个充满热情:生成人工智能(GenAI)和元宇宙。

值得注意的是,这种兴趣的激增将其触角延伸到了娱乐行业。最近,位于阿拉伯联合酋长国的配音平台 Camb.AI 获得了 400 万美元的巨额种子资金。其服务在 2024 年澳大利亚网球公开赛和令人毛骨悚然的电影《三人行》的报道中得到了突出的体现。

到 2023 年,大量聊天机器人淹没了市场——谷歌的 Bard(现在的 Gemini)、Meta AI、埃隆·马斯克的 Grok、三星的 Gaus,每一个都在争夺霸主地位。快进到 2024 年,战场将转向行业和企业,重量级竞争者将展示他们的武器库。

谷歌首次将 Gemini 作为独立的 Android 应用程序推出,而 OpenAI 则推出了具有增强功能的 ChatGPT 5。亚马逊悄悄推出了 AI 聊天机器人,Nvidia 推出了 Chat with RXT,OpenAI 的 Bret Taylor 推出了 Sierra。同时,PayPal 支持的 Rasa 获得了 3000 万美元的 C 轮融资,以支持其以企业为中心的对话式人工智能产品。

解决安全问题

OpenAI 博客补充说,他们还在构建工具来帮助检测误导性内容,例如可以识别视频是由 Sora 生成的检测分类器。该团队计划将来在 OpenAI 中部署模型时引入 C2PA 元数据。随着人工智能之争的加剧,最大的担忧之一是安全和偏见。已经有数百万人使用,安全问题是真实存在的。OpenAI 曾数次陷入风暴。

Menlo Security 的一份报告称,这种担忧只会越来越严重,尤其是在去年 3 月 OpenAI 数据泄露事件之后,当时超过 120 万用户的数据被泄露。它导致了几个新平台的创建,例如 Nvidia 的 Chat with RTX,该平台主要关注隐私,将数据限制在用户环境中。

为了解决这个问题,Altman 补充说,Sora 不仅利用了他们为使用 DALL-E3 的产品构建的现有安全方法。目前情况,文本分类器会检查并立即拒绝有关暴力、名人肖像、他人IP、色情内容等的提示。

“我们还开发了强大的图像分类器,用于检查生成的每个视频的帧,以帮助确保它在向用户显示之前遵守我们的使用政策,”该博客表示。

该团队已经与世界各地的教育工作者、艺术家和政策制定者合作,以了解核心问题并确定积极的用例。

“Sora 是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现 AGI 的重要里程碑。” 纸条上说。原文链接;https://www.edgemiddleeast.com/emergent-tech/sam-altman-redefines-ai-battle-lines-with-the-launch-of-sora

发表评论