AI浪潮中的一点个人看法

对于AI有人焦虑,有人激动。

焦虑的人认为AI将会取代人类,要么惶惶不可终日,要么逃避无视之,选择固执在自己的一亩三分地里面过自己的小日子。

激动的人觉得马上要迎来科技的曙光,通用人工智能全面崛起以后,生产力将会得到极大发展,人类将从繁重的智力劳动中解脱出来,干更多自己喜欢的有意义的事情。

唯心主义和唯物主义之于人工智能AI

然而,从哲学的角度来看,可以有两种不同的哲学流派契合上面两种人的心态,一种是唯心主义,一种是唯物主义。

唯心主义认为世界本不存在,因为人的心智而有了世界。AI的出现,是唯心主义所主张的灵魂先于实体的存在的例证,现在把原本依附于肉体的灵魂在电脑上实现,创造性了硅基生命,相比于碳基生命的脆弱性,局限性。人工智能AI作为硅基生命,其极大的克服了碳基生命的缺陷,不再有生老病死,未来如果某个人愿意的话,完全可以机械飞升,获得永生。

唯物主义认为所有的一切都是以物质为前提的,生命的存在也必须依附于人的身体,如果没有身体就没有生命。其中,又有机械唯物主义流派,认为世界只有必然性没有偶然性,所有东西都是物质的机械运动(包括量子层面的电子运动),人工智能AI虽然看上去很厉害,然则依然是一堆电子在电路中流动,其本质是能量推动的数据运算。

如果将大语言模型(LLM)中的温度设置为0,那么现有的大语言模型生成的结果将会固定化,每次投喂相同的问题,大语言模型生成的内容都将是相同的,即失去了活性,变成了一堆毫无生命力的机械。

大语言模型的魅力就在于恰似人类的灵活,既可以按照输入的文字描述(语音、图片、视频)自动生成一定的内容,好似一个具备高度智能的个体反馈的高质量的答案。这正是大语言模型温度参数的意义,每次生成反馈结果的时候,都引入一点意外的变化,其实这正是每一个人的特点,既有确定性,又有不确定性。

生物学中的天演论和人工智能AI

生物学界有一种观点:“动植物都是基因的奴隶”。动植物不断的繁衍只是为了把基因传承下去,乃至细菌、病毒、真菌等微生物也是同样的目的。人的智能恰恰就隐藏在基因的传承过程中,数千年来,人类不断的繁衍生息,基因一代代的传承,按照天演论现今存在的每一个个体都是在自然演化过程中,被自然选择保留下来的最适宜当前环境的个体。

那么基因又是什么?基因不过是一堆四进制的代码,承载的信息就是这些四进制代码的排列顺序。计算机程序又是什么,计算机程序是一堆二进制的代码,这些代码在特定的中央处理器(CPU)被执行,实现一定的效果,普通的程序不具有自我传承的完整性,依赖于人类的操作处理,通过人手的加工处理,程序被执行,生成人类想要的结果——数据。

计算机病毒虽然可以自我复制,但缺乏独立性,必须依赖于正常的计算机系统,而普通的计算机系统本身不能“自举”,无法完成自我复制,还需要人类辅助。也就是说,现阶段计算机系统是人类创造并复制的(繁衍),人类创造计算机系统是为了实现一定的目的,所以计算机系统是人类智力的抽象,是人类的外延,是人类将自身的智能提取注入到一定机械中的结果。

计算机在智力竞赛中打败人类顶尖选手

智能原本附着于各种生物体肉体,包括附着于人类的智能,附着于人类的智能相比于其他动植物更加高级,能够更加全面的认识世界(是真的吗?)。然而,每一个人的智能都是有限的,(1997年)人工智能象棋软件“深蓝”打败人类最强象棋选手的时候,意味着人类可以借助计算机技术将大量人类的智力集合到一个计算机主体上,最终打败其他个体。而当2016年alphaGO以2:1战胜人类顶尖棋手李世石的时候,意味着规则确定的领域,人类已经不再是集合智能体的对手。

而后计算机智能开始快速狂飙,谷歌公司在2017年提出Transformer模型(变形金刚模型?),引入自注意力机制,于是计算机大语言模型在自然语言处理(NLP)领域快速发展。谷歌公司对于Transformer模型训练生成式大语言模型的时候,选择了填空方式的BERT,以类似于中国高考英语完形填空的方式进行训练;而OpenAI选择了词语接龙形式的训练,高度模仿人类语言表达输出过程,于是ChatGPT横空出世,震惊全球。

人工智能的突破发展

然而,ChatGPT的震惊仅仅是因为其作为专注于对话的大语言模型,更容易被一般人接触、理解、认知,实际上无论是更早的卷积网络(CNN)的图片识别/语音识别,还是蒙特卡洛算法的概率统计模拟,在各个商业领域都有极大的应用。ChatGPT作为基于Transformer的大语言模型,让普通大众真正的认识到计算机技术可能会直接作用到每一个人的方方面面,包括对话聊天这种最为普通的日常活动。

如果有一天计算机系统可以完全取代人类,那也仅仅是人类这个种群中最厉害的个体将人类的智能一点一点抽象注入到计算机中的结果。也许有一天真的会出现《终结者》里面那样的机器人获得高度智能,能够自行进行各种生产活动,完成自我复制,那时机器人将不再需要人类。

换个角度来看,那时人类也算是完成了机械飞升,将自己全部智能注入到机器人中。不过,既然飞升了,那么拖后腿的肉体必将被抛弃。只是,这样的永生真的是人类所希望的吗?

从技术角度看:大语言模型LLM的训练和应用

先从技术角度理解生成式大语言模型(如ChatGPT类)的人工智能。ChatGPT是基于神经网络算法技术,将大量人类语料(包括各种对话、文章、专利、书籍)作为原始训练集,基于神经网络算法得到的重新将人类语料中的各个部分对大语言模型中的文字word进行重新定位排布。

之后在使用的时候,根据用户输入的文字作为函数的输入,经过大语言模型LLM矢量计算,得到后续输出内容。大语言模型的输出内容是根据训练语料进行拟合的,所以语料中具有什么样的智能,输出的结果自然就具有什么样的智能。

所以,大语言模型的智能是对于语料提取得到的智能,换而言之,可以理解成人类的智能是包含在语言中的,每一句话都包含内生的智能。

不可避免的,语料可能存在有毒有害部分,这些部分根据不同的语料会有不同的占比,如果使用大语言模型的个体无法判断输出结果的正确性,那么使用大语言模型的效果是不可控的。现阶段(2024年05月)公开的大语言模型采用公开的大语言模型性能测试,结果表明大语言模型在不同领域的正确率大约70%-90%。如果模型不是特别大,正确率常常表现得很一般。

关于大语言模型错误率,可以这么理解,大语言模型是将语料中重复的内容进行压缩,将知识储存在大语言模型的单词word的向量空间位置中,由于语料含有有害/错误知识,以及知识的复杂性,模型不够大的情况下,有害/错误知识会对正确知识产生干扰。

所以,获得大语言模型使用的时候,虽然不再要求使用者对所有知识都完全100%记住/背诵,但使用者对于知识的掌握越多,使用过程中通过向大语言模型输入特定关键字,让大语言模型弹出正确知识的可能性越高。然后,在大语言模型根据使用者输入信息弹出输出信息以后,还需要使用者自行判断结果是否准确,是否符合需求。

大语言模型的性能和安全平衡要点

在2024初SamUltraman出走OpenAI,标志着大语言模型LLM发展来到十字路口。一派主张继续扩大模型规模,提高模型精度,利用更多预料进行训练,压缩知识分离相互干扰的部分;另一派则主张大语言模型LLM要优先进行人类对齐(Assurance),避免大语言模型输出有毒有害知识。(由于有毒有害物质隐藏在训练使用的语料库中,也许可以通过对语料库进行过滤降低有毒有害成分含量。或者,通过设置必要的控制关卡,防止大语言模型输出有毒有害物质)。

大语言模型的开源发展迅速,由于大语言模型开源的都是训练结果,因此大语言模型内部什么样常常是难以观测的,更像是一个黑匣子。好用的大语言模型通常是针对性训练的超级大语言模型LLLM,经过蒸馏压缩体积的结果,不同的公司可能有不同的使用需求,需要进行不同的特异化训练。细分领域的结果,可以降低训练难度,因为细分领域知识量(关键词)数量相比于通用全领域更少,训练难度降低,知识内生干扰减少,输出结果准确率大幅度升高。

大语言模型的细分化与合并

黑客 George Hotz 在 podcast 中透露:ChatGPT4采用8 个大模型的专家混合模型(Mixture of Experts,MoE)。每一个专家分别采用不同的语料数据和 任务进行训练,然后集成到一起。

从MoE训练混合模型的角度发展来看(2024年5月),分专家训练模型显然有助于大幅度提升模型的准确率,就像人类专家分别掌管不同的技术分支一样。法律服务最难的部分是掌握大量的法律法规,而训练大语言模型最为擅长此类工作,如果一个律师具备极强的专业技能,那么他不再需要再去大量背诵法律法条原文,直接接入大语言模型帮助办理大量日常重复性事务。

同样的,还有很多类似的行业,越是容易经过语言文字明确的智力劳动,那么越是能够通过人工智能大语言模型进行辅助,达到极大提高办理效率的结果。对于法律细分领域知识产权而言,其难点可能在于多学科的融合,知识产权工作本身就是同时高度深入到具体的技术学科顶尖,并融合一定法律知识的服务,如果单纯只是文字生成排版工作,那么大语言模型是容易实现的,但是对于需要高度关注特定技术学科最顶尖知识的时候,大语言模型显然是乏力的。

人工智能在体力劳动领域的局限性

对于必须经过人类体力劳动的工作,大语言模型是不具有优势的,比如说理发师、厨师,虽然工作难度不高,但具有高度定制化特点,反而不宜采用完全统一一致化的工作方式。

再从哲学角度看人工智能AI

回到哲学的角度看人工智能AI是什么?就像最开始讨论的,人工智能恰好是人类对于自身在生产实践过程中总结归纳经验获得的知识的抽象化,今天(2024年5月)人工智能的发展已经出现了快速飙升的特点,以往计算机编程是将单一知识抽象化录入,以后人工智能大模型训练将把全人类的知识全面抽象化集成化,得到具有全部知识的人工智能,如果再赋予他一个载体(虚拟/真实),那么人类将得到一个非常像人的“类人”智能体,可以是一个具有人类外形的机器人,也可以是一个具有人类风格的虚拟程序助手,无论是什么,他都将集成全部的人类智能。

人工智能体是“人”吗?
如果将人定义为具有自我繁衍能力的碳基生命,那么人工智能永远不可能成为人,也没有必要成为人,因为碳基生命本身具有极大的局限性。那么人工智能会自主创造自己的硅基生命载体吗?如机械生命体(如动画片变形金刚中的汽车人),人工智能体如果获得自主意识,并尝试将自己的复制传播出去,那么可能会借助人类的知识进行大量的自我复制,并具有高度的一致性。所以,人工智能体是“人”吗?答案是否定的,人工智能体是独立的个体,虽然他的知识来源于人类,但他已经成为独立的个体。

人工智能体和人类的关系?
人工智能体是人类将自身生产实践中获得经验抽象转化为知识以后,相关知识进行融合集成形成的超级知识集合体,这些知识是强有力的,可以帮助人类完成很多工作,是知识智能的“涌现”,是超越机械唯物主义的“升华”。因为,人工智能

同时,人工智能体也不是传统唯心主义哲学中认为的“万物之灵”“纯粹意识”,就如同以往人类认知中,唯心主义将世间万物都比作是由意识外延衍生的结果。因为有了人的意识,才有了世间的万物,这是不恰当的,意识并没有早于实物出现;意识也并非实物机械化运转的结果。意识和实物是相互关联融合在一起的,既不能机械的认为万物结局已定,也不能认为只要意识到达之处,万物自然出现。

“菩提本无树,明镜亦非台。本来无一物,何处惹尘埃!”

所以,人工智能体的出现现阶段可能是人类将自己的知识通过计算机手段进行注入,融合,大语言模型训练得到类似纯粹“人工智能体”的程序或软件。而后,进一步的发展人工智能体可能会逐渐形成自主的意识,完成没有生命的物质向有生命的个体转变。

但如果人工智能体不能自主创造新的知识,那么他必然需要依赖于人类向其注入新的知识,所以人类和人工智能体的和谐共处完全是可能的。

一堆胡言乱语~~

–完–