均值方差组合模型,方差分析模型的优缺点,简述均值方差模型

　　另一方面，在需求分析中，LDA主题模型的最优主题数可以用混淆度来衡量，但论文已经证明了用混淆度来确定最优主题，但实际上并不适用。有没有办法计算出最佳的题目数量？答案是肯定的。许多论文使用主题方差来确定主题的最佳数量。本文的目的是根据主题的方差得到最佳主题数。

　　2.主题差异1。KL散度的相对熵，也称为Kullback-Leibler散度，有两种概率分布。

　　2.主题词方差的主题词方差，即主题词概率分布之间的方差程度。计算主题方差的常用公式如下。

　　T i T_i Ti代表提取的话题，k代表提取的话题数，代表“话题-词”概率分布归一化后的平均值。KL(t_Iti)表示代理之间的相似度。题目的方差越大，题目之间的区分度越高，说明可以确定最佳的题目数量。

　　第三，通过话题的方差来确定最佳话题数。本文使用gensim软件包构建LDA话题模型，使用matplotlib绘制不同话题数的话题方差。

　　1、完整代码importnumpyasnpimportscipyimportmatplotlib。pyplotappltfromgensictionaryfromgensimportcorporate fromgensim yfromgensim or ldamodeldefvar _ show(word com=None，wordname=None，Top=20):dictionary=dictionary(wordcom)生成字典bow=[dictionary . doc 2 bow]comment)for come in wordcom # Ford # fomtoprange 1):var=d=0 model=LDAmodel)corpus=bow，id2word=dictionary， Num_topics=k)构建LDA主题模型topics _ terms=model . state . get _ lambda(topics _ terms _ proba=NP . apply _ alone)主题分布用于计算fortinrange(k) : for c in range(t，k):var=scipy . stats . entropy)topics _ terms 2)vars . append)var _ STD)# top range 1)、vars，Color= green )PLT . scatter(list)(rangt)Color= red )PLT . x top range 1()(PLT

　　【真实，世界，["Python，yyds"]，【自然语言处理，有趣】

　　2.结果

　　如图，六个主题和七个主题可以选作最佳主题数，这当然是少之又少。得到主题方差后，就可以计算混淆度主题方差的标准化。笔者看了文献后认为，用混淆度——主题方差标准化来衡量最佳主题可能更有效，可以自行实现，也相对简单。

　　参考文献：[1]qkdwd，dddwdm。科技信息分析中LDA主题模型最佳主题数确定方法的研究[J].现代图书馆信息技术，2016(9) :9。

　　[2]以cnki文献为例研究QXD CDQ、严寒、LDA 3354最佳主题数的选取方法[J]。统计与决策，2020(16) :5。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读