主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型。主题模型主要被用于自然语言处理(Natural language processing)中的语义分析(semantic analysis)和文本挖掘(text mining)问题,例如按主题对文本进行收集、分类和降维;也被用于生物信息学(bioinfomatics)研究。隐含狄利克雷分布Latent Dirichlet Allocation, LDA)是常见的主题模型。对主题模型的研究最早来自1998年Christos H. Papadimitriou、Prabhakar Raghavan、Hisao Tamaki和Santosh Vempala提出的潜在语义索引(Latent Semantic Indexing, LSI)。1999年,Thomas Hofmann提出了概率性潜在语义索引(Probabilistic LST, PLST)。