潜在狄利克雷分布(latent Dirichlet allocation; LDA),管理学-情报学-信息检索-信息检索技术-特征抽取-潜在狄利克雷分布,能够挖掘出文档集合中潜在的主题,并以主题为特征空间进行其他任务的概率主题模型。潜在狄利克雷分布自上而下由文档、主题、词汇3个方面构成,将文档表示为关于主题的多项式分布,将主题表示为关于词汇的多项式分布,而这些多项式分布的先验参数又服从狄利克雷先验分布。潜在狄利克雷分布的生成过程(见图):①对于每一篇文档,从文档-主题分布中采样一个主题。②根据该主题选择相应的主题-词汇分布,并根据该主题-词汇分布采样一个词。③重复以上步骤直至遍历完所有文档的所有词。潜在狄利克雷分布生成过程文档-主题分布参数及主题-词汇分布参数的推断是主题建模中核心的步骤。由于在LDA模型参数推断过程中,所构造的关于文档-主题分布、主题-词汇分布,以及主题分配序列的联合后验概率表达式十分复杂,因此参数推断常采用随机算法或者近似算法。通常,对于模型参数推断主要有两大类方法,一类是吉布斯采样,另一类是变分贝叶斯推断。