机器学习-词袋方法/工具/ c++库
machine learning - bag-of-words approach / tools / library for C++?
我有一个文件夹,里面有很多旅游评论的txt文件。我想使用单词袋方法将它们转换为c++中机器学习(Latent Dirichlet Allocation - LDA)的某种数字表示,以训练系统识别每个文档的主题。
但不知何故,我不知道如何处理Word算法的袋子,我听说一些工具,如Scikit-learn。但是Scikit-learn在python环境下工作。我想知道,是否有一些推荐工具/库可以帮助我解决我的单词包模块?或者在scikit-learn上有一个c++包装器吗?
我已经到了一个我不知道该做什么的水平,一些指导将不胜感激。谢谢:)
嗯…当然,它应该足够容易编写?
最愚蠢但保证有效的方法是遍历所有文档两次。在第一次迭代期间,创建单词的hashmap和唯一索引(类似hashmap的结构),在第二次迭代期间,执行表查找并打印单词的索引,以创建数据的数字表示。
如果您想要一个单词表示包,在第二次迭代期间,您可以在每次看到新文档时创建一个hashmap (hashmap),并增加每个单词索引的计数,一旦到达文档的末尾,您就读取计数并打印它们。
您可以查看这些c++资源
相关文章:
- 使用外部SDK工具链文件在VisualStudio上生成项目编译错误
- 在clang++预处理器中确定gcc工具链版本
- Visual Studio(或任何其他工具)能否将地址解释为调用堆栈(boost上下文)的开头
- 参数化自定义CMake工具链
- 如何在QT中的自定义视频小工具t上绘制矩形
- 使用 C++ 和 i2c 工具从虚拟 i2c 写入和读取
- 用于C++的静态二进制检测或二进制重写工具和框架
- 在OSX上使用CMake将Adobe的XMP工具包构建为共享库的最简单方法是什么?
- AWS IoT 开发工具包:通过 TCP 端口 443 使用 MQTT
- 在官方张量流 resnet50 模型上运行 tflite 精度工具
- Q没有管理权限的 exe 无法启动维护工具
- C++合并排序可视化工具
- 为Bazel工具链指定sysroot
- 在自动工具中包含用于不同bin_Programs的不同库
- 如何使用MSVC 2019创建和使用Qt 5.14.0自定义小工具插件
- Eclipse CDT clang 工具链 - 无法从链接器选项中删除 stdlibc++,但可以添加 libc++,E
- 使用不同的工具时,Eccodes 会产生不同的结果
- Clang 工具,用于提取给定 lambda 类型的 lambda 主体
- 构建LLVM 10 C++工具链的问题
- 使用即将推出的C++反射工具打印类型的全名