文本降维(text dimensionality reduction),理学-统计学-大数据统计分析-数据简化,将高维语义空间映射到保留了原始文本的低维语义空间的方法。简史1958年G.索尔顿[注]提出了空间向量模型,并被广泛应用于文本挖掘中。但向量空间的高维性和稀疏性给文本建模带来了巨大的冲击,此后发展了一系列文本降维方法。1990年芝加哥大学S.迪尔韦斯特[注]等人提出了潜在语义分析法;2000年,Y.本希奥[注]等人在一系列论文中使用了神经概率语言模型,使机器习得词语的分布式表示,从而达到将词语空间降维的目的。2000年纽约大学S.T.罗维斯[注]提出了通过局部线性嵌入(LLE)来学习高维数据结构的低维表示方法。