潜在狄利克雷分配如何处理词汇表中没有的单词
latent dirichlet allocation how to deal with words not in the vocabulary
对于潜在的狄利克雷分配,因为它假设一个固定的词汇包(我用tf-idf方法获得),我们如何处理不在单词袋中的单词,说那些停用词?
我们是否仍然认为这些词在文档中占有一席之地(换句话说,我们应该为这些词分配主题)还是忽略这些词?
谢谢!
我假设会出现这个问题,因为您训练LDA以获取主题向量的语料库没有您在测试文档中找到的单词(稍后带入实验以使其主题分解)。如果是这种情况,那么忽略新单词是可以的,如果你的语料库有大量的单词,例如,如果它是一个英语语料库,那么100,000+单词的词汇量将被认为是足够大的。
另一方面,如果上述情况并非如此,并且这些新单词是将一个文档与另一个文档区分开来的单词,那么最好通过将这些单词包含在训练集中来运行LDA。
相关文章:
- 如何修复链表类实现的未处理异常0xDDDDDDDD
- 为什么在C++中对链表这样做?(像堆叠一样处理它们)
- 虚拟表如何处理纯虚函数
- 如何处理具有不同类的成员函数的函数查找表?
- C++ 程序中双链表的未处理异常
- 尝试与 OpenMP 并行处理链表数据
- HMODULE在重建导入地址表IAT时处理错误
- 存储类对象的C++模板链表-未处理的异常访问冲突读取位置
- CPP 中的注册表处理
- 从注册表中删除项和子项:代码引发未经处理的异常
- 从瑞典语到英语的词汇表测试
- 正在分析XML样式表处理指令
- 如何在处理链表时使用多线程
- gcc 预处理的表单哈希符号 + 数字"# 1"输出行是什么意思?
- 对表进行哈希处理
- 使用指针处理结构的动态表
- 潜在狄利克雷分配如何处理词汇表中没有的单词
- COM 对象版本号以及如何通过 Win 注册表处理它
- 哈希表中的冲突处理
- 如何从流中加载html内容,然后如何创建样式表以在预览窗格中显示html文件(如html预览处理程序)