在语料库中匹配多个字符串
matching multiple strings in a corpus
我需要匹配语料库上的大量字符串。然而,"字符串"不是字符列表,而是带有自定义重载==操作符的类的对象向量。
我决定使用Aho-Corasick字符串匹配算法来完成这项工作。不幸的是,我还没有找到它的任何开源实现,它可以与任意对象的序列容器(特别是向量)一起工作。幸运的是,我在这里找到了一段非常整洁的代码,它可以很好地处理普通字符串。通过一些工作,我可以将它重写为一个模板来解决我的问题。
但在这样做或从头开始编写算法之前,我想问你是否知道任何已经解决我的问题的库?
提前感谢,
蒂莫您可以使用basic_string<T>
,它具有字符串的所有方法,但不限于字符。
您链接到的代码中的CSuffixTrie
类包含两个类型:
typedef std::wstring SearchString;
typedef wchar_t SearchChar;
如果你用你自己的类型替换那些类型,你应该已经完成了一半。你需要在你的向量上实现一个等价的substr
,也许还有一些其他的字符串函数,但这应该不会有太多的工作。
相关文章:
- 使用 minijson-reader 库读取 JSON 字符串时出现问题
- 在不使用字符串库的情况下输入字符*
- C++将字符串传递给 C 库以进行内存管理
- 使用标准库计算字符串中的十进制数
- <int> 使用 fmt 库将向量转换为字符串
- 在不使用内置库函数的情况下添加字符串,我做错了什么?
- 如何在没有外部库的情况下使用C++03约束执行基于正则表达式的字符串操作
- 将来C++的标准库会包含网络、字符串算法,..吗?
- 如何在提升库中格式化字符串
- 任何C 字符串库,例如QString(或Java String)
- 在不使用容器或字符串库的情况下,在运行时增加动态数组大小
- C 库中是否有任何功能将字符串转换为算术操作
- Adobe 字符串内存泄漏 - 在哪里调用外部库入口点以释放内存?
- 从 c++ 库中获取一个字符串,周围有一个 java 包装器
- 如何使用 2 个字符串参数从 jni java 库调用
- c++中的字符串库出错:libc++abi.dylib:终止,类型为std::out_of_range:basic_st
- 自然语言处理:word2vec的文本语料库格式
- 对于 C++11,我是否仍然需要一个用于 Unicode 文本的非标准字符串操作库
- 在语料库中匹配多个字符串
- 用于解析包含单元的字符串的库