英伟达执行长黄仁勋2日曾在演讲中构建大愿景,引发热议。近日英伟达市值更超越苹果、突破3万亿美元,产品及股票都炙手可热。但精神科医师沈政男指出,目前语言学习的本质,跟人脑思考方式不同,只能模仿人类,而无法像人一般创作,这不是所能解决。
本文引用地址:沈政男6日发文指出,形成记忆的脑区,为什么不是位于枕叶,视觉中枢旁边,而位于听觉中枢旁边?他的解释是:记忆是思考的基础,思考的前身是语言,而语言跟听觉有关,于是演化上就绑在一起了。人类的语言与思考是为了适应演化而出现,这是人脑跟人工智能最大的差别之一。第二:人脑是幼儿从牙牙学语开始,几年之间,在跟爸妈的互动中学习而来,等于有一个发展的历程,跟人工智能的学习与训练有很大不同。
沈政男表示,一个13岁人类,学会使用一个单字,只需听过或看过一万次,而人工智能,现行的大语言模型,需要一万亿次,等于是人类的一亿倍。为什么?妈妈怎么教的?拿文字给小孩看吗?当然是口说!就好像数万到数百万年前,第一个人类拍拍身旁的另一个人类,抬头说:「日头!」然后人类的语言就此出现了。出现语言,要做什么?对生存有帮助!一来可以沟通,再者也可以记忆,让自己与大家避开危险。
沈政男提到,语言是一种序列讯号,因为声音是一种时间的讯号,也因此,「鸟在飞」会被拆成「鸟」与「飞」两个元素,才能理解与沟通。以当代语言学始祖乔姆斯基的理论来说,这是一种普遍文法,也就是人类的语言就一定必须存在这样的结构才能理解与使用。但人工智能,尤其是大语言模型的出现,挑战了他的理论:大语言模型并无先天存在的文法,完全是后天学习而来,但也能理解与使用人类语言。
沈政男指出,人工智能目前有几个主要的神经网络模型,一个是卷积神经网络(CNN),主要用于图像辨识,一个是递归神经网络(RNN),乃用于进程列讯号,比如语言,而最新的就是大语言模型(LMM),乃RNN的改良,也是进程列讯号,但不必递归,而是使用自我注意(self-attention),透过平行运算,一次处理一整排的序列讯号。
沈政男表示,ChatGPT不是真的看懂人类的文字,就只是把文字化成向量,透过一万亿次的学习,学会了猜测「这是」之后,很大的机会是「苹果」。也就是说,以LLM为基础的Transformer架构(ChatGPT),不一定要把「这是苹果」拆成「这」、「是」、「苹果」,也不是只能理解人类语言,即使是火星语,也能透过分词(tokenization)与句法分析,以及巨量学习,而学会任何一种语言规则。
沈政男强调,人类的语言是为了生存,而且是成长过程点滴累积而来,一开始是听觉的语言,后来才迭上了文字,但即使使用了文字,仍免不了在看字的时候浮现语音,也就是默念。看到「鸟在飞」的图片,一目了然,但说出来,就必须说成「鸟」、「在飞」两个动作,否则人家听不懂。人类讲或想「鸟在飞」的时候,脑海会浮现一只不像鸟的鸟,与不像飞的拍翅动作,就只是一个视觉遗迹,乃用来帮助思考。
沈政男直言,人类的思考这件事,大致就是听觉的序列处理与视觉遗迹在脑海跟着出现,顶多加上其他感官数据,一起形成思考的动作。因为这样的学习方式,只需要很少的练习,就能形成语言,跟人工智能有很大的不同。人工智能的语言学习是一种暴力式穷尽法,可以模仿人类,但绝对无法形成真正的创作,这是逻辑上的不可能,而不是科技用时间,或者多么先进的芯片可以解决的问题。