达沃斯上Sam Altman参加了4-5场访谈(我竟然全部听完了...),大家低估了其中的信息量,可能远比小扎说的60万张卡更重要。

摘出了Sam对GPT-5的评论,其实拼图已经很清晰

目前情况的GPT-4有太多缺点,比我们今年将拥有的版本要差非常多(much worse),比我们明年将拥有的差得更多。

假如GPT-4目前情况只能解决人类任务的10%,GPT-5应该是15%或者20%。

最重要的不是它解决的具体问题,而是广泛意义的通用性在增加。

更强大的模型、如何用好现有模型,是两个乘法因子,但显然更强大的模型更重要。

对特定数据的访问、使AI更贴近实际工作,今年将在这些方面取得很大进展。人们目前情况抱怨的各种问题比如速度太慢、不是实时的,这将在今年变得更好。在更长、更复杂的问题上的表现更精确、做更多的事情,这方面能力也会提高。

我认为AI最重要的一点是极大加速科学发现的速度,使新的科学发现越来越自动化。当然这不是一个短期内的事情,但一旦发生,这是一件很大的事情”

随着模型变得更智能、更善于推理,我们需要的训练数据更少。就比如没人需要读完2000本生物学教材,你只需要一小部分超高质量的数据,并深入思考和咀嚼,模型会更加努力地思考一小部分已知的高质量数据。

对大规模AI准备的算力基础设施还不够。

GPT-4最好被视为一种预览(preview),局限性很显然。人类天生对于指数增长的直觉并不好,如果GPT-5相较于GPT-4有如GPT-4相较于GPT-3那样的显著改进,以及GPT-6相对于GPT-5还是这样,那将意味着什么?如果我们一直在这条轨迹线上,将意味着什么?

随着AI变得更强大,甚至可能发现新的科学知识,甚至自动做AI研究,世界的发展节奏会超出我们的想象。我经常对人们说,没有人知道接下来会发生什么,保持谦卑看未来非常重要,你可以预测几步,但不要做太多预测。

当认知成本降低一千倍或一百万倍,且能力得到极大增强时,这将对世界产生何种影响?如果世界上人人都拥有一家,由1万个能力极强的虚拟AI员工、且是各个领域专家,组成的公司,他们不知疲倦,还越来越聪明,这个世界会怎样?这件事发生的时间无法预测,但会一直在一条指数增长的线上,我们能有多少时间做准备?

我认为智能手机不会消失,正如智能手机没有取代PC一样。但另一方面,我觉得AI不只是手机一样的简单计算设备+一堆软件,我觉得可能会是一个具有更大意义的东西。

我自己听完的感受是,适当控制短期预期,但要上调长期预期。但一个最核心的假设是,“指数增长”的范式是否成立,sam他们对于未来继续处于“指数增长”的信念来自于哪儿。因为往大了说,人类社会以前不存在可以一直指数增长的玩意儿,更没见过一个行业才刚开始领军企业已经凭着90%份额干到1.4万亿美金。

回溯互联网、智能机、电动化等等,界定我们现在处于什么阶段就显得非常重要。因为初期的线性外推导致踏空,尾巴的线性外推导致亏钱。

本质上是想说,AI和互联网最大的区别是,互联网越过0分就具有了实用价值,而AI不到60分价值就是0。因为互联网替代的对象之前差不多不存在,或者成本极其高昂(海底光缆之前跨大洲的数据通信),很容易就落地。但AI的替代对象就是人,或者现有软件,而这些的成本和效率之间的平衡,已经被当今世界优化到了极致。因此AI的价值拐点,本质上是AI越过社会智力成本的拐点,一旦越过,AI价值的确是非线性上升。

因为存在这么一种可能性,也是AI与智能机互联网时代最大的区别:iPhone到了iPhone4之后的形态基本固定,此后都是量变,再也没有大的质变(摄像头、触控交互、各类传感器等关键结构固定),目前情况的AI显然还没到iPhone4时刻,但关键是,AI一旦越过iPhone4时刻(比如是GPT5或6),质变有可能不会停止,指数曲线不会停止,这将是区别于互联网时代的最大不同。

就相当于,当年的手机在iphone4之后还在质变,每一代都是大版本迭代,如果历史是这样的,互联网巨头们的格局会如今日这般稳定吗?Apple甚至说芯片厂的价值量占比会不会更高?那么对于AI来说,“计算”价值会否在很长一段时间大于“应用”?

回到社会智力成本拐点的问题,这件事的份量会有多大?互联网只是将物理世界数字化,并将信息传播的边际成本降到0,就产生了每年数万亿美金的商业价值。

如果AI将社会智力成本降到0,会是多大价值?全世界最大的商业价值可能就是社会智力,一旦智力可以0成本批量复制,会将巨大的人力资本价值部分转化为AI资本价值。

Elon Musk说过“经济是生产实体乘以生产力——也就是劳动人口乘以人均生产率,假如人口数可以无限扩张,经济的上限会在哪儿?”

其次,大多数商品的成本结构都可以最终向上拆解为人力成本(脑力和体力),当被大幅降低,参考“T型车”,成本高昂的商品服务会迅速大众化,例如量身定制的个人财务法律业务顾问、人人定制的软件、人人定制化的内容娱乐形态,催生众多新兴产业的诞生。

再其次,桥水论文提到,成本降低会产生社会财富剩余,可支配的消费潜力增加,会有新的消费类别出现。

最后放飞下想象力,假如有一天实现了AGI甚至超越人的智能,“高等级思维”或“天才”不再稀缺,比如马斯克、乔布斯、jeff hinton/ilya、贝索斯这样的大脑可以批量复制(量产爱因斯坦...),就是sam在达沃斯上说的“每个人都可以拥有1万个聪明大脑服务你”,这又会产生什么样的社会和商业形态?

我想表达的是:从动机和潜在收益出发,AGI的分量,会让任何一个理性且有实力的商业组织或国家,拼了命地坚持下去,因为没人会放弃“building god”这张巨大彩票或期权。1847年英国的铁路投资在达到顶峰时占到了GDP的7%;

1996年《电信法案》生效后的五年里电信公司对光缆、交换机、无线网络的投资超过5000 多亿美元(按今日的价值计算超过万亿美元)。为什么?面对充满未知和无限可能性的生产力革命,一整代人类都会集体FOMO。而目前情况英伟达的收入/全球GDP是多少?0.1%?(不代表可以线性外推NVDA收入,只作为AI总投资是否泡沫的参考指标之一)

但回到今日,在到达拐点之前,现实情况是,一个个行业先越过及格线再说:

目前情况的GPT-4的水平,只是到了“解决某一项任务”的水平,还不能“替代某一项工作”。因为任何一项人类工作都是非常多“任务项”组成的,一项任务的解决无法撑起一个工种。

但正如上图所示,人类工作种类是分层的,随着AI能力一步步爬升,是对一项项任务、最终是一个个工作类别的持续替代。AI进步慢,替代就慢,AI进步快出现跃升(如到了AGI),替代会猛然加速。这可能就是未来5年的叙事。短期看不到商业价值也不代表一直是0和1,人类任务越过及格线的科目从量变到质变,直到AGI那一天捅破象限...

因此比尔盖茨说的很清楚,18个月后(2025年6月)会看到AI对各领域实质性的广泛渗透。UBS和Morgan Stanley都对北美500强企业的CIO(首席信息官或技术官)做了调研,结果也显示AI对企业流程的改造都在POC验证阶段,24年H2会看到更多原型验证跑通、进入实际生产流程,25年才可能大规模进入实际生产。为什么都是25年?因为在等两件事情:

1)GPT-5(或者不知道叫什么)的发布,模型能力上一个台阶,解决幻觉问题、鲁棒性一致性问题、复杂推理能力问题;

2)算力成本降低到之前的1/10,目前情况算力成本按照每12-18个月除以10的速度降低,18个月后非常多被成本制约的应用场景才可以落地。

这里引申出关键的问题还是,1)下一代模型的能力会如何;2)再之后AI会否遇到瓶颈“撞墙”。

1) GPT-5(或者其他名字)的能力提升幅度其实大概已经确定,首先肯定距离AGI还很远,这一点sam altman在圣诞节明确表示了,且看完上面你就知道AGI意味着什么分量,你就会更加敬畏,甚至希望这玩意最好是个科幻,晚点来。

其次,GPT-5的能力下限,应该至少会比Gemini ultra强,如果只是看纸面结果,大概能推断:多模态且增加视频生成能力(3D未知)、Long sequence更长的输入窗口进而显著提高通用性、复杂推理能力相比GPT-4显然提升、可能开始具备较强的planning能力。

再量化一点,就是刚刚sam在达沃斯上的比喻“假如GPT4完成了人类工作10%,那GPT5应该是15%或20%”。另外按照常理,解决相同问题的算力成本,可能会比GPT-4降低一个数量级。

2) GPT-5之后会不会撞墙。GPT-4用了MoE因此引发了对OpenAI单模型能力撞墙的质疑,但MoE的更大价值在于降低推理成本,更像是“优化”而不是“登月”。

模型的瓶颈 1 :是transformer架构的争论,的确有微创新的可能,ilya在“事变”之前的采访中,提到了现有注意力机制算力消耗过大问题,但他也提到有了解决方向。但你说新架构如RWKV、Mamba替代transformer?

引用一个哥们的观点,领军企业用脚投票了,这是个生态、资源、人才自我加强的过程,新的架构崛起有点难,至少按照ilya、Anthropic Dario等领军人物的看法,transformer潜力还有很大挖掘空间。另外,从LSTM到transformer出现是20多年,架构的创新节奏即便加速也是以10年为单位;

模型的瓶颈2:对世界知识高质量压缩的数据是不是穷尽了。按照scaling law那条曲线,达到一个“能写论文独立做科研水平的”的AI需要的数据是目前情况的5个数量级,去哪儿找...视频等多模态数据的价值更多在于文本数据提供的知识对现实世界的grounding,但视频图片等本身对世界知识的压缩率远低于文本,正如一本几百KB的书包含的知识转化为视频可能是几个T。怎么办?

按照sam达沃斯上的说法,未来不需要那么多数据,质量更重要,数据训练效率也在提高(更少数据提取更多认知),以及可以设更多epoch反复“咀嚼”。且之前关于Q-star的猜测和Jim Fan、Musk等人的评论表明,OpenAI很可能已经实现了合成数据的有效利用。

甚至Anthropic的Dario在播客中也提过“数据很可能不是制约因素,出于多种原因我不应该细说,但世界上有非常多数据来源,也有非常多方法可以生成数据”。

这种合成数据引导法可以类比人类进化,我们灵长类祖先在掌握语言之前,是无法总结、提炼、应用、累积认知和经验的,但一旦人类发展出语言,就会出现基因/文化的共同进化,这与 LLM 的合成数据/self-play循环非常相似。

另外,做个轻松点的比喻,我们读了万卷书,行了万里路,看了万千世界,就好比电影《这个男人来自地球》,一个人活了百万年,差不多是个行走的世界知识库。此时的他再学习一门新知识,是否需要那么多输入?我们说“悟性”高的人是一点即通,为什么?因为过去的高质量训练让他建立了世界运行原理的底层“相关性”。这可能也就是目前情况模型训练正在做的事(难怪OpenAI内部说他们在building god)。

因此,不妨对scaling law的延续乐观一点,这一次我们真的可能在一条指数线的早期。与摩尔定律一样,这是个经验性规律,一定需要严密的理论解释吗?Maybe not。直到蒸汽机发明一个世纪后,人类才对热力学有了全面的了解。

技术发展历史经常出现发明先于理论,或许这一次AI也是如此。就好比,并没有啥物理定律规定摩尔定律一定持续下去,总会出现一些瓶颈让人高呼摩尔定律已死,但台积电、英特尔、AMD、苹果这些伟大企业和领军人物,凭着产业、商业、甚至人性最深层的驱动力,让这一经验定律延续了几十年。

因此回到今年的GPT-5,预期其能力可能也没那么重要,更重要的是,要持续观察我们是否保持在这条trajectory指数曲线上。

就比如手机端Agent,假如2024年是雏形,或称之为手机agent元年,对其能力期望可能就不要太高。但随着前沿模型能力爬升,agent会逐渐接管个人生活、工作、应用任务,并反映为agent的订阅ASP逐年提高。它也不像硬件终端打包价,也不像会员费,和saas订阅也不完全一样,更像你雇了一个管家,其能力从实习生逐渐成长为CEO,他能为你做的事越来越复杂,从辅助你完成工作到给你创造增量价值,且越来越了解你,粘性越来越强,你付给他的薪水只会越来越高(当然这只是从需求角度,定价上限取决于供给、稀缺性等等)。

这就有意思了。结合前文对比AI和智能机互联网时代的不同,个人认为,随着这条指数曲线向上,底层计算会一直处于剧烈变化,也就是“iPhone4”时刻即便到来了,也只是个起点,而不是终点,质变会继续推进。假如底层计算范式在剧烈变动、创新、无法稳定,上层的应用又怎么能构建稳定生态呢?

因此,个人认为,computing&Networking在整个AI的价值量占比,会在相当长一段时间保持高位,这会和互联网时代截然不同。当然,故事的结尾,永远是“离C端更近的攫取最大价值”,但走到结尾稳定态的时间,可以完全不同。从这个角度,又该如何看待英伟达呢?

这又让我想起最近讨论的小话题,你说能把英伟达从鱼头吃到鱼尾的,是对冲基金,Long Only,自有资金,还是产业资本?说小点,是半导体分析师,软件分析师,互联网分析师,还是早期VC投资人?(开放话题,没有答案)

最后,送上今日看的段子,我也转到了朋友圈:

那些年

高速行驶的铁路火车是不现实的,因为,乘客会由于车速太快不能呼吸,窒息而死。——Dionysus Lardner博士(1793-1859),自然哲学、天文学教授,伦敦

折腾交流电是浪费时间,人们永远也不会使用它。——托马斯·爱迪生,1889年

“马匹不会过时, 而汽车只是流行一时的新奇事物。”——美国密歇根州储蓄银行总裁,1906年

全世界所需要的计算机大概是……五台。——IBM 公司,1943年

过了一开始的六个月,电视就不会再有任何市场了,人们很快就会厌倦每天晚上盯着一个胶合板做的盒子。——二十世纪福克斯高管达里尔·扎纳克,1946年

人们没有理由想要在家里拥有一台电脑。——数字设备公司总裁肯·奥尔森,1977年

移动电话不会取代固定电话。——马蒂·库珀,1981年

我预测互联网很快将成为壮观的超新星, 而到1996年就会遭遇灾难性的崩溃。——罗伯特·梅特卡夫,1995年

不支持3G、造价高,而且连最起码的摔落测试都没能通过,不太可能对诺基亚构成威胁。——诺基亚工程师对第1代iphone的评估报告,2007年

发表评论