我想知道您是否看过此页面?
无论哪种方式,让我为您解释一些事情。该方法使用的文档数量很少(在经过Wikipedia大小的数据源训练后,效果会更好)。因此,结果将是相当粗糙的,您必须意识到这一点。这就是为什么您不应该针对大量主题的原因(您选择了10个,在您的情况下可能明智地增加到20个)。
至于其他参数:
random_state
-这是一个种子(如果您想精确地重复训练过程)chunksize
-一次要考虑的文档数(影响内存消耗)update_every
-每update_every
chunksize
块更新模型(本质上,这是为了优化内存消耗)passes
-该算法应遍历整个语料库的次数alpha
-引用文档:
可以设置为显式数组=您选择的优先级。它还支持’asymmetric’和’auto’的特殊值:前者使用固定的归一化不对称1.0 /
topicno先验,后者直接从数据中学习不对称先验。
per_word_topics
-将此设置为True
可以提取给定单词的最有可能的主题。设置培训过程的方式是将每个单词分配给一个主题。否则,将省略没有指示性的词。phi_value
是引导该过程的另一个参数-它是一个单词是否被视为具有指示性的阈值。
最佳训练过程参数在M.Hoffman等人的在线潜在狄利克雷分配中特别详细地描述。
有关训练过程或模型的内存优化,请参阅此博客文章。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)