NLP 基础:浅论语言与认知的关系
浅论语言与认知的关系
《表象与本质》读后感及由此产生的新观点
《表象与本质》
最近对自然语言处理(Natural Language Processing, NLP),以及相关的认知科学有了一些新的模模糊糊的想法。
这些想法产生的导火索是一本叫《表象与本质》的书—— 美国认知科学家侯世达2018年出版的新书:
侯世达是个什么人呢? 此人是 印第安纳大学文理学院教授(下图左), 在上世纪写过一本《歌德埃舍尔与巴赫》—— 世人简称其为《GEB》,中文名:《集异璧》(下图右)。
凭借此书,侯世达 以一人之力打通文学、绘画与音乐之间的次元壁,获得1979年普利策奖。
注: 读懂该书需要 相当的功力,论逼格比《月亮和六便士》可不知道高到哪里去了。
《表象与本质》是他时隔三十多年之后的又一力作,号称集合了他这些年来在认知科学方面学术研究的一些智慧结晶。
这种级别的作品,不可不期待。 那么怎么评价大师的新作呢?
这本书的 优点 是:观点非常爆炸性和启发性,读完序章和第一章你会觉得整个世界观被刷新了。
主要 问题 是:实在太啰嗦了。 全书800多页,一直在重复性的用各种琐碎的例子佐证他最开始提出的观点。
我读到一半实在撑不住了,哪位同学读完的可以留言告诉我是否后边有更精彩的内容。
基于类比的认知
那么在我读过的内容里,作者抛出了一个怎样惊天动地的观点呢?其实很简单,一句话就能描述: 人类认知的一切基础,是类比。
这里先说一下我对“类比”的理解: 这里的类比不是文学上的类比,而是作者认为 人类认知的基本方式,不是基于符号系统的方式运作(严密的定义,明确的限定条件,公理/定理系统等等),而是场景式的类比 。
也就是说, 人类的基本认知单元是图像式的、场景式 的,这种 场景式的认知单元叫做类比 。
比如:幼儿第一次学会妈妈这个概念,是他意识到一个大人可以叫“妈妈”,“妈妈”这个定义就和大人这个“类比”挂钩了。
但问题随之来了,很可能他对着爸爸也叫“妈妈”。 这个时候大人再去纠正他,不对,只有女的才是妈妈。
之后他将前两个类比叠加了起来。 但他还是会犯错误,比如管其他的阿姨叫妈妈,然后大人再去纠正。 就这样一点一点,“妈妈”这个概念,通过不同类比不断叠加不断修正,在他的脑海中形成。
基于符号系统的认知
那反过来, 基于符号系统的认知方式 是什么呢? 那就是他先学会一个定义: “母亲”代表了养育与教养子女成长的女性。
我们姑且不论人类的认知方式是否是这样的,“母亲”这个定义实际是无法准确定义的,在生物学/社会学/不同文化中都有不同的定义——
-
一个子女在年幼时候走丢,以至于无法行使养育与教养的母亲算不算母亲?
-
在生物学上说,如果金星领养了孩子,那金星算不算母亲?
-
我 们有 时也会把一些非 生 物的事物比喻为母亲,比如将祖国称为母亲,那这种说法是不是有问题?
上述例子让我想起一个经典的笑话:
物理学家、天文学家和数学家走在苏格兰高原上,碰巧看到一只黑色的羊。
“啊,”天文学家说道,“原来苏格兰的羊是黑色的。 ”
“得了吧, 仅凭一次观察你可不能这么说.”物理学家道, “你只能说那只黑色的羊是在苏格兰发现的。 ”
“也不对,”数学家道, “由这次观察你只能说:在这一时刻, 这只羊, 从我们观察的角度看过去,有一侧表面上是黑色的.”
苏格兰黑山羊: 咩?
实际上,对任何一个定义的讨论,都可以这样无限进行下去。
基于类比 vs 基于符号系统
如果人类严格的按照符号系统的方式,按照严格的定义去进行语言的交流,那么一切交流都将停止。
因为任何概念都是需要用无限的维度去定义的,我们可能说的每一句话长度都是无限的。 所以人类认知的秘密很可能就如作者所言,是由“类比”组成的。
这也解释了,为什么类比这种方法,在学习过程中如此受欢迎,因为它就是最最符合人类认知规律的方法。
说实话,这种全新的理论真的是颠覆了笔者的世界观,仿佛一个全新的世界出现在眼前!
但有些遗憾的是,作者对这个全新观点的拓展似乎就停留在这个层面了,但很明显这条路无论在认知科学、神经科学、人工智能、甚至是日常交流等等层面,都有很大的拓展空间。
请注意: 从此处往 下的观点/概念都是笔者自己受书中观点启发产生的新想法,并不严谨,可能只是一些脑洞,甚至并不一定正确,并不存在学术上的探讨空间,主要作用是抛砖引玉。
概念之海与语言采样
概念之海 :概念像大海一样,是连续、模糊的,不存在精确定义。
概念在维度上是可以无限扩展,无限细分的。 例如 前面的 对“ 妈妈” 的讨论。
语言采样 : 如果某一个概念是一个无限维空间中的闭合曲面围成的封闭空间,那其对应的语言就是在这个空间内某几个点的采样—— 因为概念之海是无限的,大脑不可能将一个概念完全映射,所以 发明了 “ 语言 ” 这个东西。
简单到名词,复杂一点到短语,短句,甚至整句话,都是在这个高维度的概念之海中进行采样。
一个单词/短语在某种角度上是一种采样—— 这 恰好符合人工智能中 词向量 和 句向量 的概念。
强类比弱推理
人类认知和思考的本质 是“类比”。 一个概念在大脑中的存在的真实形态是一系列类比的集合。
类比的实质 是 对采样点进行主从分析法,提取出最重要的几个特征 。 这些特征形成了人类对某个概念的认知。
人类也存在用数学符号系统的方式进行思考的能力,但这种能力的速度是极其缓慢的。 相比之下,人类使用语言带动类比的方式进行思考的速度是极为快速、高并发的。
人类并没有进化出强大的基于符号系统的推理能力,是因为人类作为一个生物体在现实世界生活的时候极少需要这种符号推理能力。
大家可以想象,即使生活在今天,我们很少会去调用大脑中的逻辑推理能力,绝大部分问题我们使用经验就能搞定了。 而所谓的经验其实和类比的认知说的是一码事。
共识与异化
人类的语言在某些时刻有趋同的趋势,比如两个人讨论一个问题,会下意识的进行术语的统一,因为他们期望通过语言达成概念理解的一致性的共识。
但在其他时刻,人类使用语言的时候是趋向异化的,比如一个人写文章,一个词用多了就会求助于另一个词,因为他希望摆脱重复性。
多种描述的一个出发点是智力炫耀,但更重要的是帮助读者在“概念之海”上进行全方位立体的认知(词越多表示采样越多,对概念的描述越清晰)。
语言的本质及对NLP的指引
如果这个理论是正确的,那么再次证明了语言的本质是统计学,连接主义很可能是通向认知秘密的正确道路。 BERT的出现说明我们走在了正确的道路上。
如果这个理论是正确的话,那么是否存在一种方法,能让我们对这种基于 “ 类比 ” 的认知方式进行神经网络的构建,也许这是通向通用人工智能的一条路?
当然这是个很深的话题,也远远超出笔者的能力范围了,等笔者有了进一步思考再拿出来和大家分享。
小白深度学习入门系列
2. 白话详解ROC和AUC
3. 什么是交叉熵
5. 深度学习的兴起: 从NN到DNN
10. 什么是胶囊网络
“众智汇” 愿景
尽职尽才,允公允能 —— 本社群不定期举行线上分享,组织群友分享知识、经验、资源,以达到 让我们每个人的职业生涯得到最大程度的发展 的目的 。
欢迎扫面下列二维码关注“悦思悦读”公众微信号