引擎
1970年代,IBM发明了一个中间件叫:规则引擎。意思就是:你可以灵活设置规则,不用把业务规则逻辑用编程语言写死在软件中。
因为中国程序员都是码农,不懂得设计程序,就是知道业务逻辑多复杂-代码就多复杂,所以各种状态机引擎、规则引擎都不会用。即使平台研发团队搞了个规则引擎,也都在业务功能中不会用或者只用一点点。
现在,人工智能热潮风起,非常多IT厂商又开始用规则引擎忽悠智能化-自动化。
数据
对于外行人,认为大模型=会话大模型+生成大模型。
对于内行人,大模型=海量大数据+Transformer深度神经网络。
所以,数据的重要性和稀缺性,对于内行人来说,比模型还重视。所以中国最近两年出台了无数政策在说数据安全和数据资产的事。
OpenAI公司因为数据,在2023年也惹上了事。这就是,事情不火不挣钱,大家都不言语,一旦发现事情火了有利可图了,这就得说道说道了。
OpenAI虽然去年主动去国会申请召开听证会,希望促进国会尽快立法,让大家在规则下发展。但是最终听证会也没有有效运转起来。所以美国对于数据资产的一系列的法律制定,也滞后了。
那大模型怎么持续进化?有人想到了一种方法是:数据增强,通过现有数据进行智能的变形和合成,这样就数据量翻倍了。我不太赞同这种方法。
我经常说:垃圾输入必然是垃圾输出。数据增强在我眼里,和内容洗稿没啥本质差异。你把十篇内容稿件通过各种切分排列组合弄出来1000篇内容稿件,也是垃圾,而不是创造和知识。所以这种垃圾输入垃圾输出的数据增强方法,只能让大模型更傻。
那大模型怎么持续进化?我能想到的最好方法就是现在大模型的应用商店。
传闻GPT应用商店里已经有300万个应用了。大家不用搞Lora微调和预训练,也不用搞指令调优,也不需要搞人工反馈的强化学习,也不用搞复杂编程开发,只需要提示模板调优+SaaS API调用就可以很方便做出一个应用。
这个应用无法脱离大模型。只要人们使用应用,本质上就是源源不断地把数据输送给大模型。大模型把数据日常沉淀汇集起来,然后在大版本预训练时利用起来。每个应用产生的数据都很小,但是这么多应用产生的数据就如同无数条小河,汇聚起来就是大江大海。你如果因为安全考虑不想把你的数据沉淀给大数据,那对不起,那你用开源私有部署去玩吧。
所以,这种方法避免了数据资产的法律问题,也避免了数据增强愚蠢问题,还有了源源不断的新鲜数据血液。这个机制才是永恒永动的。
技术
刚才提到了提示调优模板+公有云SaaS Open API调用。这里就再衍生一个技术:AI Agent。
Agent这个词大多在强化学习场景中使用。2023年Q4,一个新技术热词被Open AI公司内斗引爆了出来,那就是:Q* Learning。其实A*是强化学习的前置技术-动态规划中的一种算法,Q-Learning也是强化学习-时序差分中的一种算法。Q* Learning就是这么组合来的。
但是AI Agent这个热词在2023年引爆是在上半年,是在下半年Q* Learning引爆之前流行起来的。所以外行人眼里的AI Agent,其实和强化学习没半毛钱关系。
外行人眼里的AI Agent,其实是在上半年流行的提示调优模板相关。
大家都知道,现有人工智能还不能回答复杂逻辑的问题,所以大家想了一个办法,叫做:思维树CoT,意思就是把一个复杂逻辑问题,人为分解为12345步,这样就可以一点点引导大模型得到你想要的答案了。
所以,AI Agent其实是一系列2023年上半年技术的杂合,所以才有了现在AI Agent框架的说法,杂合了:CoT模板-代码生成大模型、公有云SaaS-Open API甚至API工具(如Postman、Zapier)、RPA-UI层集成自动化、流程挖掘。
SAP就想走这条路。但这条路和人工智能其实没有半毛钱关系,只是挪用了人工智能的思维树的思路而已。不过我个人观点:
1、假的AI Agent(就是模板+公有云SaaS Open API调用所谓的流程自动化流程挖掘),这条路也走不远,而且这条路也和人工智能没有半毛钱关系。
2、真正的AI Agent(基于强化学习),短时间(3年内),我是看不到黎明。
模型
2023年,中国发布了上百款套壳大模型以及所谓的垂直行业大模型。
依我对中国人工智能产业的了解,其实能做大模型的中国团队寥寥无几,一双手都能数过来。
其实,绝大多数所谓的大模型团队,连Lora微调都不会也不敢。虽然Lora微调也只是改动最后一层,但是即使改动最后一层也不会啊,况且改动完了还要做预训练,虽然预训练的代价已经很小,但很小也是需要不少算力的。所以,在中国,其实连Lora微调都不会做。
大多数团队只会使用提示模板调优。连RHLF(基于人工反馈的强化学习)都不会。毕竟强化学习比深度学习还难。
有些深度的团队会搞指令模板调优。
但大多数团队连所有的调优都不会也不敢,因为太消耗工程人力了。能做的,就是把自己的数据通过大模型API输入给大模型,然后让大模型自动输出结果。这就是真实的现状。
李鬼太多了。
即使是真李逵,敢于做Lora微调,敢于做提示调优和指令调优甚至RHLF,我个人认为垂直大模型也最终必然会被通用大模型吞没。
为啥我会这个观点?我类比个例子。经常有朋友问我:为啥你会这么独特地思考?我说:因为我的知识体系中有:历史、地理、政治、军事、金融、经济、哲学、人性、计算机、组织、管理,所以我的思考是多维的、非线性的、动态的。而大多数人知识不成体系,所以是单维的、线性的、静态的。
我之所以这么类比,就是因为垂直大模型就和大多数人一样是单维的、线性的,不会聪明的。真正的聪明一定是多维交汇的。就如同非常多知名的数学家,在音乐造诣方面也不错,他们其实就是融会贯通。不融会贯通是走不远的。
应用
2023年特别流行一个人工智能技术名词叫:RAG,意思就是检索增强生成。
这个热词来源于:微软Bing搜索,整合了GPT文本生成大模型,通过实时搜索避免了大模型因为预训练机制导致的信息陈旧问题,也通过文本摘要生成大模型弥补了传统搜索列出无数条链接内容让用户一一点开看的缺陷。
所以业界也想模仿New bing这么搞垂直搜索增强改进,所以产生了RAG技术的探索。
在说2023年流行的RAG这个热词之前,我再说说另一个技术事:向量搜索引擎、向量数据库。
我早先用的是ElasticSearch,在2020年我用了向量搜索引擎和向量数据库Milvus。
2023年,RAG火了,于是向量搜索引擎和向量数据库不知道怎么也突然火出圈了。然后有一帮人不知是不知道呢,还是别有用心呢,就把向量搜索引擎和向量数据库,偷梁换柱李代桃僵,就等同于RAG了。
不过,热潮很快就过去了,2023年,向量数据库被证伪,又快速回到了自己过去擅长的领域。随之,RAG这股风也不如过去热了。