ChatGPT 的创建者 OpenAI 周四推出了 Sora,这是一种可以从文本创建视频的生成式 AI 模型。据 OpenAI 称,Sora 会根据用户的提示生成大约一分钟长的视频。它可以产生具有多个角色、特定类型的运动和准确的主体细节的复杂场景。
OpenAI 表示,该模型可供视觉艺术家、设计师和电影制作人等红队成员使用,他们可以检查和测试该模型是否存在危害或风险。OpenAI 发布文本到视频模型的两天前,该公司透露正在使用ChatGPT测试内存,以便AI 聊天机器人能够记住特定的内容。而微软的独家合作伙伴人工智能供应商在谷歌推出Gemini 多模态模型更新版本的同一天发布了 Sora ,加剧了两家科技巨头之间近乎每月一次的生成式人工智能竞争。新的文本到视频模型也是在竞争对手 Stability AI 推出新的图像生成模型 Stable Cascade 三天后推出的,该模型可以生成照片并生成同一图像的变体。同时,生成人工智能图像市场的另一家公司Midjourney也一直在致力于视频领域。
自然进展
Gartner 分析师 Arun Chandrasekaran 表示,Sora 的发布是 OpenAI 的自然发展。他指出,OpenAI 最初是一家自然语言公司,但现在已经扩展到其他模式,例如图像、编码、语音,现在还包括视频。“他们一直在努力扩展可以向企业客户提供的反映现实世界的各种模式,”钱德拉塞卡兰说。“从某种意义上说,留给他们的就是视频,这是 OpenAI 所取得的多模式进展的自然演变。”OpenAI 并不是第1家涉足文本转视频领域的供应商。人工智能初创公司 Runway 去年 3 月推出了文本转视频人工智能模型 Gen-2。Facebook 母公司 Meta 还在 2022 年推出了 Make-A-Video,随后于去年 11 月推出了 Emu Video 和 Emu Edit。两者都支持文本指令和文本到视频生成的方法。然而,对于 OpenAI 来说,这是一种表明其在这个市场上也具有竞争力的方式,Constellation Research 创始人 R.“Ray”Wang 表示。“向研究人员公开宣布 Sora 和红队的可用性是一种基础,”Wang 说。“这将与 Stability AI 和 Midjourney 展开竞争。”
测试挑战
同时,Chandrasekaran 表示,OpenAI 早期引入 Sora 及其红队工作引发了人们的疑问,即如何确保该项目安全且不被滥用。他说:“鉴于这项技术确实非常新,他们必须对其进行充分的控制,以防止其被滥用和误用,甚至客户在没有认识到新兴技术的所有局限性的情况下使用它。”他补充说,OpenAI 在模型周围设置的护栏以及供应商如何确定谁能够获得访问权非常重要。
OpenAI在快速推出其闪闪发光的生成式人工智能产品方面保持了竞争优势。通过这样做,该供应商继续炫耀其在生成人工智能领域的雄心。
Chandrasekaran 表示:“看起来在这个领域没有一家公司比 OpenAI 更雄心勃勃,而且这种雄心似乎有增无减。”OpenAI 承认 Sora 仍然存在弱点,可能难以准确模拟复杂场景。它还可能会混淆提示的空间细节并混淆左右。OpenAI 表示,它正在构建工具来检测误导性内容并判断 Sora 何时生成视频。
原文链接;https://www.techtarget.com/searchenterpriseai/news/366570082/OpenAI-intros-text-to-video-model-Sora-challenges-rivals