汉字熵

（文学 | 语言文字）

汉字熵（entropy of Chinese characters），文学-语言文字-计算语言学及语料库语言学-计算语言学，汉语书面文本中一个汉字所包含的信息量。由于汉语书面文本中的汉字所示是不等概率的，因此，汉字的熵是不等概率的熵，计算公式如下：式中n为不同的汉字数；为汉字i的概率。由于汉字的数量很大，计算起来比字母文字困难得多。1976年，冯志伟采用逐渐扩大汉字容量的办法，首次计算出汉语书面语文本包含在一个汉字中的熵比特，并从理论上说明了如果再进一步扩大汉字容量，这个熵值不会再增加。由于20世纪70年代还没有可供个人使用的计算机，也没有计算机可读的文本，需要通过艰苦的手工查频来进行汉字熵的计算，难以得到非常精确的结果。因此，冯志伟认为他的结果只是对于汉字熵的一个粗略的估计。但这个研究结果与20世纪80年代末期北京航空航天大学刘源等人通过计算机对大规模语料统计得到的汉语信息熵为9.71比特的结论相当接近，说明这个粗略的估计是科学的。汉字熵的估测为尔后多八位双字节汉字编码标准的研制提供了语言理论基础。

知识树

时光轴

论点集

总题库

阅读模式

知识树创建说明

词条相关

知识点创建