如何在C++的推文中删除表情符号

How to remove emoticons from tweets in C++?

本文关键字:删除 符号 文中 C++      更新时间:2023-10-16

我正在C++开发Twitter情绪分析工具。到目前为止,我从Twitter上获得了推文,并对其进行了一点处理(小写,删除RT,删除#和URL)。

下一步是删除表情符号和所有这些特殊字符。怎么做呢?在你跳我之前,我已经看过其他类似的问题,但没有一个涉及C++。主要是R,Python和PHP。

我想使用正则表达式,但我无法让它工作。我尝试删除主题标签和 URL,但我放弃了。我最终使用了普通的字符串:查找和find_first_of。

是否有任何库或方法可用于摆脱这些表情符号和特殊内容?

谢谢

我建议为此使用正则表达式。现在你有两个选择,你可以只提取你感兴趣的字符(如果你正在处理英文推文,这可能是A-Z,a-z,数字和一些符号,这取决于你的需要),或者你可以选择无效字符(表情符号)并用空字符串替换它们。

我只有Qt的正则表达式引擎的经验,但是c ++标准库支持正则表达式(尽管我不确定Unicode有多好),但ICU也提供了一个正则表达式库。

*我会提供更多链接,但我没有足够的声誉:/