就我个人而言,我同意鲍尔的观点,即“元宇宙”是其中最好的,特别是考虑到鲍尔在结论中对该概念的简洁描述:我喜欢“元宇宙”这个术语,因为它的工作方式类似于互联网,但针对的是 3D。它与设备甚至整个计算无关,就像互联网与 PC 或客户端-服务器模型无关一样。Metaverse 是一个庞大且互联的实时 3D 体验网络。为了实现直通或光学 MR 的规模化,需要“3D 互联网”——这意味着对网络基础设施和协议的彻底改革、计算基础设施的进步等等。这也许是该术语的最后一个挑战——它更多地描述了一种最终状态,而不是一种过渡。

也许是一个挑战,或者说到底是什么让这个术语成为正确的:元宇宙在某种程度上是“3D互联网”,就是它与互联网完全互操作和附加的程度。而且,这是一条常走的路。两年前,我在DALL-E、元宇宙和零边际内容中写道:游戏长期以来一直走在技术发展的最前沿,就媒介而言更是如此。第1个电脑游戏只不过是文字:

随后是图像,通常是位图;我记得在图书馆播放了非常多“卡门圣地亚哥在世界哪里”:很快,当你在 2D 世界中导航精灵时,游戏就包含了动作;3D 紧随其后,过去 25 年的大部分时间都致力于让 3D 游戏变得更加逼真。不过,差不多所有这些游戏都是 2D 屏幕上的 3D 图像;虚拟现实提供了身临其境的错觉。

社交媒体遵循了类似的路径:文本到图像到视频,有一天,在 3D 空间中分享经验(如NBA 扣篮大赛);我指出生成式人工智能也将遵循这条道路:

DALL-E 的迷人之处在于它指出了这三种趋势可以结合的未来。DALL-E 归根结底是人类生成内容的产物,就像它的表亲 GPT-3 一样。当然,后者是关于文本的,而 DALL-E 是关于图像的。但请注意,从文本到图像的进展;由此可见,机器学习生成的视频是下一个。当然,这可能需要几年的时间;视频是一个更加困难的问题,而响应式 3D 环境则更加困难,但这是行业以前走过的道路。

证明人工智能发展速度有多快,“几年”是令人难以置信的悲观:在该帖子发布后的几个月内,稳定扩散就被用来生成视频,现在 OpenAI 推出了 Sora。来自OpenAI 的网站:Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。该模型对语言有深入的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。Sora 还可以在单​​个生成的视频中创建多个镜头,准确地保留角色和视觉风格。

当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。该模型还可能会混淆提示的空间细节,例如,混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹……Sora 是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现 AGI 的重要里程碑。

该摘录中的最后两段是紧张的,并且一直是 X 上激烈争论的主题:Sora 是否仅仅通过预测像素就拥有或预示着物理现实的新兴模型的未来?

索拉与虚拟现实

其中一个更令人难忘的 Sora 视频来自提示“两艘海盗船在一杯咖啡中航行时互相战斗的逼真特写视频”。坦率地说,这是令人震惊的,尤其是水和光的再现:直到过去几年,电子游戏才通过光线追踪技术,才能够提供类似的效果,即便如此,我认为 Sora 已经他们打败了。然而,第2次或第3次观看就会发现显然的缺陷;只需跟随右侧船上飘扬的红旗,以及船如何完全翻转方向即可:Sora 是一个基于 Transformer 的模型,这意味着它可以通过计算来扩展质量;来自OpenAI 关于 Sora 的技术报告:

Sora是一个扩散模型;给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。重要的是,Sora 是一个扩散变压器。Transformer 在多个领域展示了卓越的扩展特性,包括语言建模、计算机视觉和图像生成。

在这项工作中,我们发现扩散变压器也可以有效地缩放为视频模型。下面,我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。这表明咖啡杯中船上的旗帜(多好的短语啊!)是可以固定的;不过,我怀疑最终的像素预测能否用来取代我在上周与Rescale 首席执行官 Joris Poort 进行的 Stratechery 采访中讨论的有关高性能计算的物理建模。请注意有关飞机机翼建模的讨论:

让我们举一个简单的例子,比如流体流动。实际上,您可以将飞机机翼分成许多小盒子,或者将任何类型的空气或液体放入任何小盒子中,并了解该小盒子内的科学和物理原理,我们通常将其称为网格,因此很好理解。但是,如果你看一些更复杂的概念,比如湍流,我们都经历过飞机上的湍流,所以这不是一种平滑的流动,所以它是不连续的,所以你实际上必须时间一步通过它。您必须查看每一个小的时间步长并重新计算所有这些物理原理,因此每个单独的单元格、网格都可以并行计算。

这些物理模拟旨在尽可能接近现实;如果我怀疑基于 Transformer 的架构能否进行这种模拟,那么我也怀疑它“理解和模拟现实世界”的能力;不过,这就是我回到鲍尔文章的地方:我们正在开发一种配得上“虚拟现实”一词的产品。

格罗克

DALL-E、元宇宙和零边际内容的要点在于,生成式人工智能是使元宇宙成为现实的关键因素:从长远来看,这表明虚拟宇宙的愿景比典型的视频游戏的确定性要低得多,但比社交媒体上生成的内容要丰富得多。想象一下不是由艺术家绘制而是由人工智能创建的环境:这不仅增加了可能性,而且最重要的是降低了成本。

我们不知道 Sora 的成本,但差不多可以肯定它们是巨大的;随着时间的推移,它们也会下降,正如计算领域一直以来的情况一样。同样必要的是渲染速度要快得多:当今与大型语言模型交互的挑战之一是速度:是的,准确性可能会随着计算和模型大小的增加而增加,但这只会增加获得渲染结果时所经历的延迟量。答案(例如,比较 GPT-3.5 Turbo 与 GPT-4 的速度)。这里的答案也可能只是摩尔定律,或者可能是不同的架构。

Groq 由 Jonathan Ross 于 2016 年创立,他创建了 Google 的第1个张量处理单元;罗斯的论点是,芯片应该从软件定义网络中汲取灵感:软件定义网络使用具有软件层的商用硬件来处理路由的复杂性,而不是用于路由数据的专用硬件。事实上,Groq解释其技术的论文标题为“用于大规模机器学习的软件定义张量流多处理器”。

为此,Groq 从编译器开始,该软件将代码翻译成芯片可以理解的机器语言;目标是能够将机器学习算法简化为一种可以在极其简单的处理器上执行的格式,这些处理器可以以非常高的速度运行,而不会导致现代处理器相对较慢的昂贵的内存调用和预测失误。

最终结果是 Groq 的芯片是纯粹确定性的:而不是用于现代 GPU 的高带宽内存 (HBM) 或计算机中使用的动态随机存取内存 (DRAM),这两种芯片都需要定期刷新才能运行(这引入了延迟和特定时刻数据位置的不确定性),Groq 使用 SRAM — 静态随机存取存储器。SRAM 将数据存储在所谓的双稳态锁存电路中;与支撑 DRAM(以及扩展的 HBM)的晶体管/电容器架构不同,它以稳定状态存储数据,这意味着 Groq 始终准确地知道每个数据在任何特定时刻的位置。这使得 Groq 编译器能够在理想情况下预先定义每个内存调用,从而通过相对简单的架构实现极快速的计算。

事实证明,在基于 Transformer 的模型上运行推理是一种极其理想的情况,因为计算本身具有极高的确定性。像 GPT-4 这样的 LLM 通过一系列具有预定操作集的层来处理文本,这非常适合 Groq 的编译器。同时,基于令牌的生成是一个纯粹的串行操作:生成的每个令牌都依赖于了解前一个令牌;任何一个特定答案的并行度都是零,这意味着令牌计算的速度绝对是溢价的。这种加速是如此显着,以至于与法学硕士的互动体验发生了巨大的变化;它还可以让您与法学硕士进行实时实时交流,甚至跨越半个地球,在电视上直播:关于为什么 OpenAI 首席执行官 Sam Altman 可能会探索硬件,我提出的论点之一是,人工智能越接近人类,妨碍与所述人工智能实际交互的小不便就越令人烦恼和最终受到限制。 。必须走到办公桌前使用电脑,甚至从口袋里掏出智能手机是一回事:您始终在与设备进行清晰的交互。在类似人类的人工智能环境中打开应用程序或等待文本要痛苦得多:它以一种更深刻、最终令人失望的方式打破了幻想。Groq 提出了一种保持幻觉完整的方法。

索拉 on Groq

令人惊讶的是 Groq 是一个确定性系统运行确定性软件,最终产生概率输出。我在ChatGPT Gets a Computer中解释了确定性计算与概率性计算:

计算机是确定性的:如果电路 X 开路,则 X 表示的命题为真;如果电路 X 开路,则 X 表示的命题为真;1 加 1 总是 2;单击浏览器上的“返回”将退出此页面。当然,在单个晶体管和我们可能对计算机执行的任何操作之间存在大量的抽象和大量的逻辑,并且实际上存在无数个错误的地方,但计算机的适当心智模型是:他们完全按照他们被告知的去做(事实上,错误并不是计算机犯了错误,而是程序员告诉计算机做错误事情的表现)。我已经提到过 Bing Chat 和 ChatGPT;3 月 14 日,Anthropic 发布了另一位名为 Claude 的人工智能助手:虽然公告中没有明确说明,但我认为这个名字是为纪念前面提到的克劳德·香农 (Claude Shannon)。这当然是一种崇高的情感——香农对信息论的贡献远远超出了迪克森上面所阐述的——但它也让人感觉不合时宜:虽然从技术上讲,人工智能助手所做的一切最终都是由 1 和 0 组成的,但它们的方式却不同。操作是从他们的训练中产生的,而不是被禁止的,这导致体验感觉与逻辑计算机根本不同——差不多是人类的东西——这让我们回到了幻觉;悉尼很有趣,但是家庭作业呢?

ChatGPT Gets a Computer背后的想法是,大型语言模型的运作方式似乎与人脑有些相似,这是令人难以置信的,而且也不精确,就像我们需要计算机来进行精确计算一样,ChatGPT 也是如此。然而,普通计算机实际上与 Groq 相反:您从硬件中获得确定性答案,也就是说,由于现代处理器和内存的设计,比您想象的更有概率,运行的软件假设处理器将处理无尽的内存调用和分支预测。

但最终,我们又回到了开始的地方:计算机会知道船头和船尾在船上的位置,而像 Sora 这样基于变压器的模型则做出了错误的猜测。前者计算现实;后者计算现实。后者是虚拟现实。

不过,想象一下,Sora 在 Groq 上运行(这绝对可行):我们可以实时生成视频吗?即使我们不能,我们也肯定比你想象的更接近。您可能会问,我们会在哪里观看这些视频?在Apple Vision Pro或 Meta Quest等头戴式显示器上怎么样?虚拟现实(我的新定义)虚拟现实(旧定义)。

即将到来的 VR 时刻

iPhone 的诞生并非凭空而来。Apple需要学习如何制造 iPod 等低功耗设备;闪存需要以可承受的价格点变得可行;三星需要制造足够好的处理器;3G网络需要推出;iTunes 音乐商店需要为 App Store 提供基础;Unity 需要承担一个错误的使命,即为 Mac 构建游戏引擎。然而,一切都在 2007 年发生,移动时代爆发了。三年前,Facebook 更名为 Meta,标志着 Metaverse 时代的开始,但很快就变成了一句笑料;看起来该公司正在过快地推进太多技术。不过,苹果可能有更好的时机:值得注意的是,Vision Pro 和 Sora 在同一个月推出,正如 Groq 开始表明实时推理可能比我们想象的更容易实现。同时,台积电正在向 2nm 迈进,而英特尔也正在做出可信的竞标以加入他们的行列,正如对高性能芯片的需求普遍由于大型语言模型而猛增一样。

郑重声明,我并不认为在虚拟现实方面我们正处于 iPhone 时代,我指的是多种技术创新在完美产品中交叉的时刻。然而,令人兴奋的是,与三年前不同的是,许多作品都在眼前。Sora可能还不够好,但会变得更好;Groq可能不够便宜或不够快,但它以及无论出现什么其他竞争对手,都将在这两个方面取得进展。据我估计,Meta 和苹果本身还没有完全正确地获得硬件。然而,你可以在各个方面看到一条从这里到那里的道路。

当然,最重要的区别是手机在 iPhone 之前就已存在:销售更好的手机很容易。我们现在才能够回答的一个大问题是,对于相当多的人来说,虚拟现实是否会成为更好的现实。原文链接;https://stratechery.com/2024/sora-groq-and-virtual-reality/

发表评论