潜在狄利克雷分配如何处理词汇表中没有的单词

latent dirichlet allocation how to deal with words not in the vocabulary

本文关键字:词汇表 处理 单词 何处理 雷分配 分配      更新时间:2023-10-16

对于潜在的狄利克雷分配,因为它假设一个固定的词汇包(我用tf-idf方法获得),我们如何处理不在单词袋中的单词,说那些停用词?

我们是否仍然认为这些词在文档中占有一席之地(换句话说,我们应该为这些词分配主题)还是忽略这些词?

谢谢!

我假设会出现这个问题,因为您训练LDA以获取主题向量的语料库没有您在测试文档中找到的单词(稍后带入实验以使其主题分解)。如果是这种情况,那么忽略新单词是可以的,如果你的语料库有大量的单词,例如,如果它是一个英语语料库,那么100,000+单词的词汇量将被认为是足够大的。

另一方面,如果上述情况并非如此,并且这些新单词是将一个文档与另一个文档区分开来的单词,那么最好通过将这些单词包含在训练集中来运行LDA。