是否有c++库实现了流式标记器?

Is there a c++ library that implements a streamy kind of tokenizer?

本文关键字:c++ 实现 是否      更新时间:2023-10-16

接口后面的内容:

class StreamTokenizer
{
public:
    StreamTokenizer(const std::string delimiter);
    std::list<std::string> add_data(const std::string);
    std::string get_left_over();
};
StreamTokenizer d(" ");
std::list<std::string> tokens;
tokens.append(d.add_data("tok"));
tokens.append(d.add_data("1 t"));
tokens.append(d.add_data("ok2 tok3"));
tokens.push_back(d.get_left_over());
// tokens = {tok1, tok2, tok3}
// d = {}

它以块的形式接收数据,它应该返回到目前为止找到的所有令牌,它应该能够将剩余的数据连接到下一个块,并且它不应该保存已经被标记的数据。

请不要建议使用stringstream,除非你可以展示如何从它擦除已经标记的数据(我的流实际上是无限的)

是的,它被称为"标准库"。

你所要求的似乎在流可以很容易处理的范围内。

std::stringstream d;
d << "tok";
d << "1 t";
d << "ok2 tok3";
std::vector<std::string> tokens((std::istream_iterator<std::string>(d)),
                                 std::istream_iterator<std::string>());
for (std::string s : tokens)
    std::cout << s << "n";
结果:

tok1
tok2
tok3

我在这里没有展示"get the rest"函数。我想istream::read可能是显而易见的选择。

我想我应该补充:默认情况下,字符串将在流解释为空白的任何地方被打破,而不仅仅是空格字符。您可以通过编写自定义ctype facet并将该facet注入流来更改它解释为空白的内容。例如,我在之前的回答中展示了如何对-/进行此操作。