如何在C++的推文中删除表情符号
How to remove emoticons from tweets in C++?
我正在C++开发Twitter情绪分析工具。到目前为止,我从Twitter上获得了推文,并对其进行了一点处理(小写,删除RT,删除#和URL)。
下一步是删除表情符号和所有这些特殊字符。怎么做呢?在你跳我之前,我已经看过其他类似的问题,但没有一个涉及C++。主要是R,Python和PHP。
我想使用正则表达式,但我无法让它工作。我尝试删除主题标签和 URL,但我放弃了。我最终使用了普通的字符串:查找和find_first_of。
是否有任何库或方法可用于摆脱这些表情符号和特殊内容?
谢谢
我建议为此使用正则表达式。现在你有两个选择,你可以只提取你感兴趣的字符(如果你正在处理英文推文,这可能是A-Z,a-z,数字和一些符号,这取决于你的需要),或者你可以选择无效字符(表情符号)并用空字符串替换它们。
我只有Qt的正则表达式引擎的经验,但是c ++标准库支持正则表达式(尽管我不确定Unicode有多好),但ICU也提供了一个正则表达式库。
*我会提供更多链接,但我没有足够的声誉:/
相关文章:
- 如果我想链接静态库并删除未使用的符号.txt我应该如何处理 Cmakelist
- 如何从字符数组(不是字符串数组)中删除符号
- 有没有一种预处理器的方法可以从调试符号中删除代码段
- 用于删除符号并生成排列的算法
- 从静态库中去除/删除调试符号和存档名称
- Nodejs本机模块 - 如何删除调试符号
- bad_alloc::'标量删除析构函数'(无符号整数)当我尝试创建矢量 470MB 大小时
- 如何根据行总数的条件在犰狳中删除 SpMat<无符号 int> 的行?
- 重命名批处理文件(删除名称中的一些符号)(python/matlab/shell)
- C 删除某些符号/标点符号
- 如何在C++的推文中删除表情符号
- 如何删除LD:Xcode 4.2(C 代码)中的重复符号_
- C 移动/删除符号
- 如何删除注册表中拙劣的符号链接
- 从 GCC 可执行文件中删除符号和 RTTI 文本
- 无法从使用 Cmake 创建的可执行文件中删除符号名称
- 从C++中的用户输入中删除符号
- 是否有可能调试最初由可执行文件生成的已删除符号的核心文件?
- 是否有理由不从可执行文件中删除符号?
- 从共享对象中删除符号