了解Gensim LDA模型中的参数

了解Gensim LDA模型中的参数,第1张

了解Gensim LDA模型中的参数

我想知道您是否看过此页面?

无论哪种方式,让我为您解释一些事情。该方法使用的文档数量很少(在经过Wikipedia大小的数据源训练后,效果会更好)。因此,结果将是相当粗糙的,您必须意识到这一点。这就是为什么您不应该针对大量主题的原因(您选择了10个,在您的情况下可能明智地增加到20个)。

至于其他参数:

  • random_state
    -这是一个种子(如果您想精确地重复训练过程

  • chunksize
    -一次要考虑的文档数(影响内存消耗)

  • update_every
    -每
    update_every
    chunksize
    块更新模型(本质上,这是为了优化内存消耗)

  • passes
    -该算法应遍历整个语料库的次数

  • alpha
    -引用文档:

可以设置为显式数组=您选择的优先级。它还支持’asymmetric’和’auto’的特殊值:前者使用固定的归一化不对称1.0 /
topicno先验,后者直接从数据中学习不对称先验。

  • per_word_topics
    -将此设置为
    True
    可以提取给定单词的最有可能的主题。设置培训过程的方式是将每个单词分配给一个主题。否则,将省略没有指示性的词。
    phi_value
    是引导该过程的另一个参数-它是一个单词是否被视为具有指示性的阈值。

最佳训练过程参数在M.Hoffman等人的在线潜在狄利克雷分配中特别详细地描述。

有关训练过程或模型的内存优化,请参阅此博客文章。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5668105.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存