机器学习-词袋方法/工具/ c++库

machine learning - bag-of-words approach / tools / library for C++?

本文关键字:工具 c++ 方法 机器学习      更新时间:2023-10-16

我有一个文件夹,里面有很多旅游评论的txt文件。我想使用单词袋方法将它们转换为c++中机器学习(Latent Dirichlet Allocation - LDA)的某种数字表示,以训练系统识别每个文档的主题。

但不知何故,我不知道如何处理Word算法的袋子,我听说一些工具,如Scikit-learn。但是Scikit-learn在python环境下工作。我想知道,是否有一些推荐工具/库可以帮助我解决我的单词包模块?或者在scikit-learn上有一个c++包装器吗?

我已经到了一个我不知道该做什么的水平,一些指导将不胜感激。谢谢:)

嗯…当然,它应该足够容易编写?

最愚蠢但保证有效的方法是遍历所有文档两次。在第一次迭代期间,创建单词的hashmap和唯一索引(类似hashmap的结构),在第二次迭代期间,执行表查找并打印单词的索引,以创建数据的数字表示。

如果您想要一个单词表示包,在第二次迭代期间,您可以在每次看到新文档时创建一个hashmap (hashmap),并增加每个单词索引的计数,一旦到达文档的末尾,您就读取计数并打印它们。

您可以查看这些c++资源