潜在狄利克雷分配如何处理词汇表中没有的单词

latent dirichlet allocation how to deal with words not in the vocabulary

本文关键字：词汇表处理单词何处理雷分配分配更新时间：2023-10-16

对于潜在的狄利克雷分配，因为它假设一个固定的词汇包（我用tf-idf方法获得），我们如何处理不在单词袋中的单词，说那些停用词？

我们是否仍然认为这些词在文档中占有一席之地（换句话说，我们应该为这些词分配主题）还是忽略这些词？

谢谢！

我假设会出现这个问题，因为您训练LDA以获取主题向量的语料库没有您在测试文档中找到的单词（稍后带入实验以使其主题分解）。如果是这种情况，那么忽略新单词是可以的，如果你的语料库有大量的单词，例如，如果它是一个英语语料库，那么100,000+单词的词汇量将被认为是足够大的。

另一方面，如果上述情况并非如此，并且这些新单词是将一个文档与另一个文档区分开来的单词，那么最好通过将这些单词包含在训练集中来运行LDA。