提升字符串匹配 DFA
boost string matching DFA
给定一个字符串,我必须测试它是否以一组已知的后缀结尾。现在,由于后缀不是很小,并且必须根据已知后缀列表检查文档中的每个单词。单词和后缀中的每个字符都是char32_t
。作为朴素的迭代匹配将是昂贵的。虽然大多数后缀不是另一个后缀的子后缀或前缀,但它们中的大多数都是用一小组字符构造的。大多数检查都将是错过而不是命中。
因此,我想构建一个后缀DFA
,以最大程度地减少错过的成本。我可以手动解析 unicode 代码点并使用boost-graph
创建 DFA。但是有没有现有的库可以为我构建它?
包含所有后缀的巨大正则表达式会比 DFA 便宜吗,因为正则表达式搜索也会以类似的方式构建用于匹配的 DFA?但我想知道当有命中时匹配了哪个后缀。在正则表达式的情况下,我需要执行另一个线性搜索才能获得它(我无法标记正则表达式内部 DFA 的顶点)。我也需要unicode
正则表达式。我猜,将所有后缀都放在|
上会像线性搜索一样昂贵。我想我需要检查常用字符并相应地创建带有外观和回溯的正则表达式。这不是我手动构建DFA需要面对的相同困难吗?
我正在使用utf-32
进行随机访问。但是,如果我可以轻松解决它,切换到 utf-8 不是问题。我将从右到左反转字符串和模式。
你考虑过精神吗?当然,您没有指定如何在上下文中检测后缀(您是否需要在末尾使用后缀,是否需要在它前面添加一些语法等),但您可以执行以下操作:
x3::symbols<Char> sym;
sym += "foo", "bar", "qux";
它构建了一个Trie,这是非常有效的。它可以解析任何类型的输入迭代器(包括流,如果你愿意的话)。只需为上下文要求添加一些魔术约束,例如输入结束:
bool has_suffix(string_view sv) {
return parse(sv.cbegin(), sv.cend(), x3::seek[suffix >> x3::eoi]);
}
如果您甚至希望返回字符串的文本值,只需执行以下操作:
string_view get_suffix(string_view sv) {
boost::iterator_range<string_view::const_iterator> output;
parse(sv.cbegin(), sv.cend(), x3::seek[x3::raw[suffix >> x3::eoi]], output);
return {output.begin(), output.size()};
}
Spirit给你留下了很多自由,让你用智能包围,动态添加/删除符号,例如使用no_case
与Trie等。
完整演示
使用 X3 (c++14)
住在科里鲁
#include <boost/spirit/home/x3.hpp>
#include <string_view>
#include <cstdint>
namespace Demo {
using Char = char32_t;
using string_view = std::basic_string_view<Char>;
namespace x3 = boost::spirit::x3;
static auto const suffix = [] {
x3::symbols<Char> sym;
sym += "foo", "bar", "qux";
return sym; // x3::no_case[sym];
}();
bool has_suffix(string_view sv) {
return parse(sv.cbegin(), sv.cend(), x3::seek[suffix >> x3::eoi]);
}
string_view get_suffix(string_view sv) {
boost::iterator_range<string_view::const_iterator> output;
parse(sv.cbegin(), sv.cend(), x3::seek[x3::raw[suffix >> x3::eoi]], output);
return {output.begin(), output.size()};
}
}
#include <iostream>
#include <iomanip>
int main() {
using namespace Demo;
auto widen = [](string_view sv) { return std::wstring(sv.begin(), sv.end()); };
std::wcout << std::boolalpha;
for (string_view testcase : { U"nope", U"lolbar you betqux" }) {
std::wcout
<< widen(testcase)
<< L" -> " << has_suffix(testcase)
<< L" (" << widen(get_suffix(testcase))
<< L")n";
}
}
指纹
nope -> false ()
lolbar you betqux -> true (qux)
灵气版
字面上的端口:住在科里鲁
仅限C++11的版本:Live On Coliru
以及真正复古编程体验的 C++03 版本:Live On Coliru
- std::map<struct,struct>::find 找不到匹配项,但是如果我循环通过 begin() 到 end(),我在那里看到匹配项
- 基于ELO的团队匹配算法
- 没有用于初始化C++中的变量模板的匹配构造函数
- 调用'begin(int [n])'没有匹配函数
- 将模板与类模板扣除占位符参数匹配
- 功能样式转换从 'int' 到 'ItemType' 的匹配转换
- 'max'匹配'std::function<const int &(const int &, const int &)>'无过载
- C++LinkedList问题.数据类型之间存在冲突?没有匹配的构造函数
- Qt SQLite没有查询或参数计数不匹配
- 模板参数推导失败,函数参数/参数不匹配
- 错误 没有与参数列表匹配的重载函数"getline"实例
- Qt Q串行端口未编程设备未关闭
- 找到具有最多子串栅栏的字符串排列
- 在使用累加时,C++中的运算符+不匹配
- C++ Boost::asio串行通信与Arduino无法写入
- 错误:调用'getline'没有匹配函数
- C++ 与操作员不匹配<<
- 我怎样才能将所有子目录与 cmake 自动匹配
- C++:编译时检查匹配的函数调用对?
- 提升字符串匹配 DFA