这一次,并不是因为OpenAI 的震惊,也不是因为与ChatGPT有关。相反,这是因为一种名为 Sora 的全新人工智能模型。周四,他向全世界介绍了 Sora,它的名字取自日语中的“天空”一词,可以根据文本创建长达一分钟的视频。

OpenAI 表示,与Sora合作的目标是教导人工智能“理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要现实世界交互的问题。”这是描述模型实际能力的一种有点乏味的方式。它可以创建从 19 世纪淘金热期间的加利福尼亚到类似于梦工厂制作的 3D 动画的所有内容的高保真视频。它所要求的只是一个简单的文本提示。值得一提的是,这并不是此类技术的首次实例。

总部位于纽约的初创公司 Runway 在谷歌和 Nvidia 的支持下,拥有一款基于人工智能的工具,可以将文本制作为视频。Meta 有一个类似的东西,叫做Emu Video。上个月,谷歌推出了名为Lumiere的文本转视频版本。

他们周围的热闹程度可以和空相比吗?不完全的。部分原因是 Altman 对私营OpenAI的领导地位使他可以自由地宣传这项技术——尽管该技术仍在接受危害测试。(注:Sora 的发布仅限于“红队成员”,他们将对其进行风险测试,以及精心挑选的视觉艺术家和电影制作人。)

这就是为什么他在社交媒体上宣布 Sora 不仅仅包含一个解释新人工智能模型的博客的超链接;它涉及与追随他的人的直接接触。在 X 上,他立即接受了用户对 Sora 制作的视频的请求。

“我们想向您展示 Sora 的能力,请回复并附上您想看的视频的字幕,我们将开始制作一些!” 他写了。请求如潮水般涌来。

网络名人 MrBeast 向他索要一段猴子在公园下棋的视频。另一个人要求观看金毛猎犬在山上的播客。Nothing 首席执行官 Carl Pei 要求提供威尔·史密斯吃意大利面的视频。非常多其他人也这样做了。

Khosla Ventures 的风险合伙人 Nikunj Kothari 强调了 Altman 战略的影响,将其与谷歌在 Sora 发布当天通过博客 分享其人工智能模型 Gemini 大规模更新的方式进行了对比。

他在 X 上表示,谷歌宣布了“令人兴奋的事情” ,将 Gemini 的“上下文窗口”——人工智能模型可以围绕目标代币处理的单词数量——扩大到 100 万个。这是一个巨大的进步,但谷歌并没有像 Altman 那样展示这一进步。

“没有游乐场,我自己无法尝试。博文中有一些非常令人印象深刻的视频,但对我来说根本不是个性化的,”Kothari 在 X 上写道,同时强调 Altman 通过接受其他人的请求来“展示”Sora 的能力。“这将大大掩盖谷歌非常非常令人印象深刻的成就。谷歌已经处于劣势,需要通过‘分享’来再次占据市场份额,”科塔里说道。不过,这种炒作可能不会持续太久。

能够生成视觉上令人印象深刻的视频的人工智能模型的发布可能会对创意产业构成新的威胁,去年好莱坞罢工后,创意产业已经引起了人们对生成人工智能可能抢走他们工作的担忧。

如果坏人利用这项技术来制作唐纳德·特朗普或乔·拜登等人的虚假视频,那么该技术的广泛采用也可能对今年的选举造成严重破坏。这也可能会导致对 OpenAI 的新要求,即以与开源模型相同的方式对其用于训练模型的数据保持透明。但就目前情况而言,人们还是相信奥特曼的炒作。原文链接;https://www.businessinsider.com/sam-altman-openai-video-text-model-creator-sora-leading-google-2024-2

发表评论