语种辨认(language identification),文学-语言文字-计算语言学及语料库语言学-计算语言学,使用计算机自动识别语言的种类。对于互联网上的信息,首先应判断这种信息是属于哪一种语言。辨认其语种是获取互联网信息的最基础的工作。语种辨认的方法有三种。①使用Unicode。中文中全部使用汉字,日文中汉字、假名和字母共用,韩文中使用谚文(Hangul),藏文中使用天城体藏文字母,蒙古文中使用蒙古字母,计算机根据Unicode中不同文字的形状就可以轻而易举地识别文本所属的语种。但是,很多语言会使用拉丁字母。如果遇到使用拉丁字母的语言,就不能使用Unicode来进行语种辨认了。②使用一些短的单词作为特征词来识别。在使用拉丁字母的语言中,冠词、介词以及一些短的单词在各种语言中的出现频度是不同的,可以把这些单词作为识别语种的特征词。