繁体中文  
 
版主:黑木崖
 · 九阳全新免清洗型豆浆机 全美最低
 
[本人公号原创] 信息论之世界观:从语言谈起
送交者:  2017年06月21日07:13:43 于 [世界军事论坛] 发送悄悄话

claudeshannoninfo.jpg

一点理论

 

上世纪40年代,香农在贝尔实验室发表了其里程碑式的论文“A Mathematical Theory of Communication”标致着信息论的诞生。信息论回答了通讯中两个基本问题:1、数据的最大可压缩率2、信道中最高可达的传输速率。因此往往被人们认为是通讯理论的一部分。然而,信息论在统计物理,概率论,计算复杂性理论,经济学理论甚至哲学理论中都有应用与关联。所以,信息论更是一个观察与分析客观世界的基础理论和基本方法。

 

本文试图用信息论为手段分析一下人类自然语言(中,英)特点。先聊一点理论,首先什么是信息呢?没有严格的定义,广泛认为信息具有消除不确定性的特点。比如,气象预报说今晚有雨。之前你不确定今晚是否有雨,通过预报知道了,消除了不确定性。这就是气象预报带来的信息。那么信息如何量化?当你倾向今晚可能有雨,预报有雨;或你倾向今晚没雨,预报说有雨;这两种情况,虽然预报内容相同,但对于接收方而言后者信息量远大于前者。用数学语言来解释,设变量X表示今晚是否有雨。你认为X=有雨的概率为70%,而无雨为30%。收到无雨预报后,你头脑中的X的概率分布变了,有雨概率为0%,无雨为100%。概率分布的变化因为接收方摄取了预报所传递的信息。概率分布变化越大,对人原先所确信的事实改变越大,信息量越大!人们听到一个消息感到惊讶而目瞪口呆说不出话来,这是人脑作为一个信息处理机遭到巨大信息量冲击导致的暂时超负荷停机状态的表现。

 

有了上段的基本认识,接下来讲一下信息论中的最基本概念--熵(Entropy)。这是一个从热力学中借鉴过来的量,用以刻画混乱程度,不确定性。用H表示,计算公式为H(X)=-∑p(x)log(p(x)),可见熵取决于变量的概率分布。再拿X举例,当你认为X=有雨和无雨的概率一样各为50%,意味着不确定性(熵)达到最高。信息用于降低不确定性,因此具有负熵性质。信息论用熵回答了本文开头的第一个问题,熵是无损数据压缩的理论极限。换句话说,用一种编码方案做数据压缩,不可能低于数据本身的熵,压缩至熵时所有的冗余都被挤干净了。

 

语言作为编码方案

 

先就这么多理论,接下来讲语言。语言是信息的载体,也是一种编码方案。如果有一种土著语言只有两种发音巴,嘎,文字也仅有这俩个字符,理论上讲,土著们还是可以描述整个世界。一点不奇怪,电脑里只有01两个数字,依然记录所有的信息。在南太平洋海岛比如夏威夷,法属波里尼西亚,会注意到岛上的街名都是很长的一串字母。然而,编码方案有优劣之分。虽然巴,嘎可以表示一切,但说一句飞机要起飞了要巴啊嘎的说上一长串,等乘客听完了飞机已经走了。。。因此,在单位时间内,单位数据量内,传递的信息量越大,编码方案的冗余度越小,效率越高,方案越接近优化。显然土著语言冗余度太高。如要量化考察自然语言的还需再引入一个概念--熵率(Entropy Rate)就是一个编码方案平均到一个符号所承载的熵。熵率越高冗余度越小,单位码元承载的信息量越大。

 

我们考察一下中,英文。这里引用一篇自然语言处理的论文 “Entropy Rate Estimates for Natural Language - A New Extrapolation of Compressed Large-Scale Corpora, Ryosuke T., Kumiko T and Lukasz D.,MDPI” 中的结果。如下图:

table1a.png

论文使用了大型语料库做统计。通过比较中英文字语言的熵率,结论十分明了,中文的单位编码码元的熵率(h)远高于英文。一个很有意思的观察是,台湾繁体字的熵率要高于简体字。同样是中文,但汉字编码的熵率高于汉字拼音方案。这个结果说明,同样的数据量,汉语的信息承载量高,冗余度低。换句话讲,传递同样的信息量,汉语要传输的数据量更小,因此所需时间更短。用汉语,乘客就不用担心错过马上要起飞的飞机了。这还是现代汉语,如果是文言文结果对比恐怕会更加显著。

 

为何汉语冗余度小

 

从字形看,汉语是表意二维的一个图形,拼音文字是一维的一串字母,更高的维度自然可表达更多信息。另外,如果我们将汉字的偏旁部首对应于英语的词根词缀,英语单词对应于汉语的一个词,那么汉语编码方案实际多了一个中间层次-字。汉语是字组词,大多数单个汉字有意义但不明确,必须跟另一汉字组成词后才有确切意义。根据熵的定义,变量可能的值越多,概率分布越平坦,熵越高。如果是土著语言,后面跟着不是便是,可选值很少。汉语因为是字组词,而东汉的许慎所著的说文解字里就收录了9353个汉字,可能的组合是个天文数字。除此之外,汉语在历史长河中历经发展,乃是信息沉淀的容器。如同一棵参天古树的断面年轮,可以发掘出不同年代的气候变迁的信息。年轮越多,信息量越大。

 

编码方案对处理机的影响

 

人脑是语言的处理机。人每天都同自己熟悉的语言打交道从思维到学习交流方式无不受到影响。这里必要提到计算复杂性理论中的Kolmogorov复杂性,又称描述复杂性,定义为最短的描述长度。与之对应的是时间复杂性,定义为处理算法运算时间的长度。一个是空间的,另一个是时间上的度量。天下没有免费的午餐,往往是省了空间增加了时间或者反过来。汉语具有冗余度小的特点。要传达同样的信息,汉语的描述复杂性更低。这里的低不是说汉语不复杂,仅仅是长度更简短。然而,代价是时间复杂性的提高。时间复杂性是度量处理算法的复杂度,越复杂的算法所需运行时间越长。做一个类比,在一个通讯系统中,发送方在传输数据之前要压缩数据减少冗余度来节省带宽。那么这就要求接收方更聪明会解压缩数据,否则通讯无法实现。另一个方面讲,数据的冗余度越小,抗干扰能力越差,要求接收方有更强的纠错算法。比如,用1伏电压表示数字02伏电压表示数字1,那么发送一个脉冲只能表示一个比特数字,但只要噪音小于0.5伏就可以正确解码。如果允许脉冲电压为0.511.52伏,那么一个脉冲可以携带两比特数字,信息量翻倍。可同时,一旦有噪音高于0.25伏就可能让接收方作出错误的判断。也就是之前说的抗干扰能力差了。为了弥补这个损失,接收方必须利用更加强大的算法来处理数据。事实上,手机从板砖到智能手机完全是因为更加强大的算法不断的得以应用。


描述复杂性和时间复杂性

 

一道经典的10囚徒与帽子问题可以很好的说明描述复杂性与时间复杂性的关系。题目是这样的,10个囚徒被告知可以获得释放,条件如下:

1. 10个人按从矮到高站成一排

2. 每个人只能面向前观察,不许扭头

3. 狱警在每个人头上戴上一顶非黑即白的帽子

4. 由最高的人开始,依次每人只有一次机会用一个字(黑或白)说出自己头上的帽子颜色

5. 所有的囚徒将会被释放,当且仅当至少其中9个人正确说出自己头上帽子的颜色

那么如何设计一套方法让这些聪明的囚徒获得自由呢?

10-prisoner-and-hats-puzzle1.jpg

解决此问题的困难之处在于每个人只能说一个字,这将描述复杂性降到了最低限度,否则最后那个高个子只要把自己的观察广播出来,前面9人不用动脑子就知道自己帽子的颜色了。因此,我们不得不让每个囚徒脑子里运行一个复杂的算法来推导出自己帽子的颜色,这就增加了解题的时间复杂性。算法可以是,令白=0,黑=1。每个人都对自己前面的数字序列从头开始依次做逻辑异或(XOR)运算。第10个人猜自己头上的帽子颜色等于他前面的运算结果并据此通报出来。那么第9个人就掌握了两条信息,一、面前从18帽子的运算结果;二、由第10个人通报的自己帽子的颜色也是前9顶帽子的运算结果。由此第9个人可以实施逆异或运算得知自己帽子的颜色。以此类推,每个人都拥有自己前面运算的结果信息,并且记住自己身后所有人的通报信息,因此可以推导出自己帽子的颜色。最后的高个猜对的可能性为50%,前面9个人通过计算可以完全确定自己帽子的颜色,问题得解。还有其他的算法,比如计算前面颜色的奇偶数等,原理是相同的。这个例子很好的说明了,语言的精炼对更强脑力的要求。

 

如前所述,汉语的信息量大。这不仅体现在书面也体现在口语通讯。汉语语音有声调,这就类似脉冲信号多了电压等级。人们说汉语时偶尔会有走调的现象,作为听者必须脑补纠错。还有另一个让人费脑子的地方就是汉语断句。正确的断句不仅仅依靠句子本身,往往还要依据上下文和背景知识。比如大刀王五闯浏阳,是说有个大刀王闯了浏阳城五次呢?还是有个叫王五爱耍大刀的人闯进浏阳?作出正确的判断需要结合此句所在的文章上下文。本号曾经在工作中排错一个通讯物理层对接收到的信号的解码判断,但物理层的判断对错在本层无法确定。通过研究发现,必须做更多的工作将信息向上传递到网络层才能确定底层软件做的判断正确与否,因为高层协议软件掌握更多的上下文。这跟刚才汉语断句的道理是一样的。

 

总之,汉语信息量大,冗余度小,因此掌握汉语交流需要更多的训练,大脑需要做更多的处理工作。这也许是为何地球人说汉语是第一难学的语言,但同时也会训练出更强的大脑!



本号坚持原创,不过不好意思,距离上次原创超一年半多了 ;-P  实由太忙。今后争取一年有几次原创,敬请订阅。

QR_logo.jpg

0%(0)
0%(0)
  不错,谢谢。  /无内容 - 黑木崖 06/21/17 (78)
标 题 (必选项):
内 容 (选填项):
实用资讯
北美最大最全的折扣机票网站
美国名厂保健品一级代理,花旗参,维他命,鱼油,卵磷脂,30天退货保证.买百免邮.
一周点击热帖 更多>>
一周回复热帖
历史上的今天:回复热帖
2016: 边防战士惊心动魄的巡逻路
2016: 联系最近超算,NPU的突破对AI和机器学习
2015: Countdown to Greece and Euro/EU Fate
2015: 南沙第二大岛
2014: 接过美国的枪?中国武力干涉伊拉克前景
2014: 伊拉克ISIS宣传画:中国也是列强 zt
2013: 纽约时报观点: 印度为什么赶不上中国?
2013: 斯诺登最新消息:最快今天前往冰岛寻求
2012: 刚刚读完一部巨著The Rise and Fall of
2012: 逆天了!湖南卫视