当某些结构字段被省略或与结构声明中的顺序不同时,如何实现正确的解析?
How to achieve proper parsing when some of structure' fields are omitted or are in not the same order as in the structure declaration?
所以我有一个解析器,可以将7.5*[someAlphanumStr]
或7.5[someAlphanumStr]
这样的字符串解析成这个结构:
struct summand {
float factor;
std::string name;
summand(const float & f):factor(f), name(""){}
summand(const std::string & n):factor(1.0f), name(n){}
summand(const float & f, const std::string & n):factor(f), name(n){}
summand():factor(0.0f), name(""){}
};
但除此之外,我需要能够解析[someAlphanumStr]*7.4
、[someAlphanumStr]5
、7.4
和[someAlphanumStr]
等字符串。在最后两种情况下(7.4
和 [someAlphanumStr]
),我想为省略为默认值的字段设置值,为此,我用一个参数为我的结构summand
构造函数编写了值。
下面是我的代码和它产生的结果:
#include <boost/config/warning_disable.hpp>
#include <boost/spirit/include/qi.hpp>
#include <boost/fusion/include/adapt_struct.hpp>
#include <boost/fusion/include/io.hpp>
#include <iostream>
#include <string>
#include <vector>
namespace client
{
namespace spirit = boost::spirit;
namespace qi = boost::spirit::qi;
namespace ascii = boost::spirit::ascii;
struct summand {
float factor;
std::string name;
summand(const float & f):factor(f), name(""){}
summand(const std::string & n):factor(1.0f), name(n){}
summand(const float & f, const std::string & n):factor(f), name(n){}
summand():factor(0.0f), name(""){}
};
}
BOOST_FUSION_ADAPT_STRUCT(client::summand,
(float, factor)
(std::string, name)
)
namespace client {
template <typename Iterator>
struct summand_parser : qi::grammar<Iterator, summand(), ascii::space_type>
{
summand_parser() : summand_parser::base_type(summand_rule)
{
using namespace ascii;
summand_rule %= (qi::float_ >> -qi::lit('*') >> '[' >> qi::lexeme[alpha >> *alnum] >> ']')|('[' >> qi::lexeme[alpha >> *alnum] >> ']' >> -qi::lit('*') >> qi::float_)|(qi::float_)|('[' >> qi::lexeme[alpha >> *alnum] >> ']');
}
qi::rule<Iterator, summand(), ascii::space_type> summand_rule;
};
}
void parseSummandsInto(std::string const& str, client::summand& summands)
{
typedef std::string::const_iterator It;
static const client::summand_parser<It> g;
It iter = str.begin(),
end = str.end();
bool r = phrase_parse(iter, end, g, boost::spirit::ascii::space, summands);
if (r && iter == end)
return;
else
throw "Parse failed";
}
int main()
{
std::vector<std::string> inputStrings = {"7.5*[someAlphanumStr]", "7.5[someAlphanumStr]", "[someAlphanumStr]*7.4", "[someAlphanumStr]5", "7.4", "[someAlphanumStr]"};
std::for_each(inputStrings.begin(), inputStrings.end(), [&inputStrings](std::string & inputStr) {
client::summand parsed;
parseSummandsInto(inputStr, parsed);
std::cout << inputStr << " -> " << boost::fusion::as_vector(parsed) << std::endl;
});
}
结果(科利鲁):
+ clang++ -std=c++11 -O0 -Wall -pedantic main.cpp
+ ./a.out
+ c++filt -t
7.5*[someAlphanumStr] -> (7.5 someAlphanumStr)
7.5[someAlphanumStr] -> (7.5 someAlphanumStr)
[someAlphanumStr]*7.4 -> (115 )
[someAlphanumStr]5 -> (115 )
7.4 -> (7.4 )
[someAlphanumStr] -> (115 omeAlphanumStr)
感谢大家的明确回答和建议,我特别感谢@sehe。
使用Spirit[1]完成任何事情的方法是使用小步骤,在此过程中严格简化。
不要忍受"拐杖"(比如随机重复的子表达式)。此外,明确是好的。在这种情况下,我将从提取重复的子表达式并重新格式化以提高可读性开始:
name_rule = '[' >> qi::lexeme[alpha >> *alnum] >> ']';
factor_rule = qi::float_;
summand_rule %=
(factor_rule >> -qi::lit('*') >> name_rule)
| (name_rule >> -qi::lit('*') >> factor_rule)
| (factor_rule)
| (name_rule)
;
在那里,已经好多了,我什么都没改变。但是等等!它不再编译
qi::rule<Iterator, std::string(), ascii::space_type> name_rule;
qi::rule<Iterator, float(), ascii::space_type> factor_rule;
事实证明,语法只是"碰巧"编译,因为 Spirit 的属性兼容性规则非常宽松/宽松,以至于与名称匹配的字符只是被分配给因子部分(这就是115
的来源:0x73 是 ASCII 表示来自 someAlphanumStr
的s
)。
哎呀/TL;DW 我在这里写了相当多的分析文章,有一次,但我通过关闭浏览器来破坏它,所以只有一个旧的草稿缓存服务器端:(我现在把它归结为底线:
指南 使用构造函数重载分配给公开的属性类型,或使用融合序列适应,但不要将两者混合使用:它们会以令人惊讶/烦人的方式进行干扰。
别担心,我当然不会让你空手而归的。我只是"手动"引导factor
,并将组件name
在各自的"插槽"(成员)[2]中。
继承的属性是保持这种清晰和方便的甜蜜方式:
// assuming the above rules redefined to take ("inherit") a summand& attribute:
qi::rule<Iterator, void(summand&), ascii::space_type> name_rule, factor_rule;
只需在语义操作中添加一个简单的赋值:
name_rule = as_string [ '[' >> lexeme[alpha >> *alnum] >> ']' ]
[ _name = _1 ];
factor_rule = double_ [ _factor = _1 ];
现在,"魔尘"当然在于如何定义_name
和_factor
演员。由于维护成本,我更喜欢使用绑定,超过 phx::at_c<N>
:
static const auto _factor = phx::bind(&summand::factor, qi::_r1);
static const auto _name = phx::bind(&summand::name, qi::_r1);
看?这非常简洁,清楚地显示了正在发生的事情。此外,这里实际上没有必要对summand
进行 Fusion 改编。
现在,最后,我们也可以简化主要规则:
summand_rule =
factor_rule (_val) >> - ( -lit('*') >> name_rule (_val) )
| name_rule (_val) >> - ( -lit('*') >> factor_rule (_val) )
;
这样做的作用是通过使尾随部分可选,简单地将单组件分支组合到双组件分支中。
请注意 summand
默认构造函数如何处理默认值:
struct summand {
float factor;
std::string name;
summand() : factor(1.f), name("") {}
};
请注意,这如何消除了那里的相当多的复杂性。
查看完全改编的示例,该示例在Coliru上运行,其中打印:
7.5*[someAlphanumStr] -> (7.5 someAlphanumStr)
7.5[someAlphanumStr] -> (7.5 someAlphanumStr)
[someAlphanumStr]*7.4 -> (7.4 someAlphanumStr)
[someAlphanumStr]5 -> (5 someAlphanumStr)
7.4 -> (7.4 )
[someAlphanumStr] -> (1 someAlphanumStr)
完整代码清单
#define BOOST_SPIRIT_USE_PHOENIX_V3
//#define BOOST_SPIRIT_DEBUG
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/phoenix.hpp>
namespace client {
namespace qi = boost::spirit::qi;
namespace phx = boost::phoenix;
namespace ascii = boost::spirit::ascii;
struct summand {
float factor;
std::string name;
summand() : factor(1.f), name("") {}
};
}
namespace client {
template <typename Iterator>
struct summand_parser : qi::grammar<Iterator, summand(), ascii::space_type>
{
summand_parser() : summand_parser::base_type(summand_rule)
{
using namespace ascii;
static const auto _factor = phx::bind(&summand::factor, qi::_r1);
static const auto _name = phx::bind(&summand::name, qi::_r1);
name_rule = qi::as_string [ '[' >> qi::lexeme[alpha >> *alnum] >> ']' ]
[ _name = qi::_1 ] ;
factor_rule = qi::double_ [ _factor = qi::_1 ] ;
summand_rule =
factor_rule (qi::_val) >> - ( -qi::lit('*') >> name_rule (qi::_val) )
| name_rule (qi::_val) >> - ( -qi::lit('*') >> factor_rule (qi::_val) )
;
BOOST_SPIRIT_DEBUG_NODES((summand_rule)(name_rule)(factor_rule))
}
qi::rule<Iterator, void(summand&), ascii::space_type> name_rule, factor_rule;
qi::rule<Iterator, summand(), ascii::space_type> summand_rule;
};
}
bool parseSummandsInto(std::string const& str, client::summand& summand)
{
typedef std::string::const_iterator It;
static const client::summand_parser<It> g;
It iter(str.begin()), end(str.end());
bool r = phrase_parse(iter, end, g, boost::spirit::ascii::space, summand);
return (r && iter == end);
}
int main()
{
std::vector<std::string> inputStrings = {
"7.5*[someAlphanumStr]",
"7.5[someAlphanumStr]",
"[someAlphanumStr]*7.4",
"[someAlphanumStr]5",
"7.4",
"[someAlphanumStr]",
};
std::for_each(inputStrings.begin(), inputStrings.end(), [&inputStrings](std::string const& inputStr) {
client::summand parsed;
if (parseSummandsInto(inputStr, parsed))
std::cout << inputStr << " -> (" << parsed.factor << " " << parsed.name << ")n";
else
std::cout << inputStr << " -> FAILEDn";
});
}
[1] 可以说,技术中的其他任何东西
[2] 您可以保留FUSION_ADAPT_STRUCT但不再需要它,如您所见
我不确定这是否是最佳解决方案,但我会通过提供融合序列的初始值来解决这个问题,而不是稍后使用 Phoenix 修改它们:
summand_rule %=
(qi::float_ >> -(-qi::lit('*') >> '[' >> qi::lexeme[alpha >> *alnum] >> ']'))
| (qi::attr(0.) >> '[' >> qi::lexeme[alpha >> *alnum] >> ']' >> -(-qi::lit('*') >> qi::float_[ph::at_c<0>(qi::_val) = qi::_1]));
也就是说,我们为融合序列中的第一项提供初始值 0.
,该值被分配给 factor
,然后返回并稍后对其进行修改。
如果我们在相反的情况下omit
因子,则规则的属性类型将完全建模summand
,我们可以使用=
赋值而不是%=
:
summand_rule =
(qi::float_ >> -(-qi::lit('*') >> '[' >> qi::lexeme[alpha >> *alnum] >> ']'))
| (qi::attr(0.) >> '[' >> qi::lexeme[alpha >> *alnum] >> ']' >> -(-qi::lit('*') >> qi::omit[qi::float_[ph::at_c<0>(qi::_val) = qi::_1]]));
演示:http://coliru.stacked-crooked.com/a/46e3e8101a9c10ea
- 如何在层次结构中实现运算符使用?
- Trie数据结构的实现
- 如何在结构中实现文件读取和创建
- 我应该使用什么样的数据结构来实现UPGMA
- 我是否需要遍历升压 rtree 的层次结构才能实现最大效率?
- 我应该如何在恒定长度的 STL 样式数据结构中实现max_size?
- 关于类的想法 参数结构给定实现
- 堆栈(数据结构)实现
- .h 文件中的客户端结构与实现结构
- C++ 在结构上实现 ORDER BY
- 什么样的数据结构可以实现并行处理
- 您将使用什么数据结构来实现字典
- 正确的数据结构,实现快速插入和快速搜索
- 从类中访问结构和实现图形的其他问题
- 手动填充顶点结构以实现对齐
- C++中的图状数据结构和实现
- 需要结构包含/实现帮助(pt 2)C++
- 需要结构包含/实现帮助(c++)
- 私有成员函数和结构以及实现文件本地的帮助程序
- 理解堆栈数据结构并实现它