长尾综合效应(long tail syndrome),文学-语言文字-计算语言学及语料库语言学-计算语言学-自动标引,在自然语言处理中,低频词的分布数据稀疏,在分布折线上出现像尾巴形状的长条形的效应。根据数理语言学中的齐夫定律,自然语言中普遍存在着长尾综合效应。如下图所示:自然语言中普遍存在的长尾综合效应横轴表示频率词典中单词的序号r的对数log r(按照序号从小到大的顺序排列,从序号1排起),纵轴表示频率词典中单词的频率n的对数log n(按照频率从高到低的顺序排列,出现频率最高的单词的序号为1)。试验证明,当15<<1500的时候,频率相同的词群容量不大;当1500,也就是当词的频率较小的时候,频率相同的词群的容量就大大增加了。随着频率的变小,频率相同的词群的数量也越来越多,其分布形成一条破碎折线。可以清楚地看出,在这条破碎折线的后面一段拖着一条“长尾”。这样的事实说明,自然语言中的绝大多数事实采用经常出现的、非常少量的表达方式来描述,而剩余的事实需要不经常出现的、大量的表达方式才能覆盖,因此才会在曲线中出现“长尾”。