提升正则表达式、正则表达式、url 和 img
Boost regex, regular expression, url and img
我需要在网页的HTML源代码中找到所有链接和图像。实际上我有以下表达方式:
boost::regex findurl("(?s)<\s*a\s+.*?href\s*=\s*['"]([^http]{1}[^\s>]*)['"]", boost::regex::normal | boost::regbase::icase);
查找图像(标签)应该是什么样子的?
学习Perl和使用HTML::P arser所花费的时间比调试这个不适用于病理HTML的正则表达式的时间要少。 我已经可以在其中发现链接的三个错误,即使您只询问图像。
这包括示例代码,即使您不了解 Perl,您也可以弄清楚如何修改。 http://perlmeme.org/tutorials/html_parser.html
在字符类 ( [^http]
) 中重复字符似乎不正确。 djechlin有一个观点,因为RE可能是不够的,但对于最简单的HTML来说。
相关文章:
- 使用正则表达式regex_search在字符串中查找字符串
- 在 C++ 中使用正则表达式错误时出现问题 括号表达式中的范围无效
- C++正则表达式无限循环
- FindPackageHandleStandardArgs.cmake:137 的 CMake 错误(消息):找不到 Boost (缺少:正则表达式)(找到合适的版本"1.72.0",
- 定义有趣的宏和正则表达式在Z3 C++绑定
- 带有多个字符分隔符的正则表达式
- C++ 使用增强正则表达式库时断言崩溃
- 有人可以帮助我处理正则表达式吗?
- 使用正则表达式获取大括号块的列表
- 正则表达式以匹配数字的重复模式,后跟任何类型的分隔符?
- 组合正则表达式部分使用 | 不起作用的 C++
- 为什么C++正则表达式这么慢?
- 如何使HTML5电子邮件验证正则表达式在C++中工作?
- 在C++中实现正则表达式
- C++正则表达式替换整个单词
- 用C++编写正则表达式的正确方法是什么?
- 如何从Stroustrup的C++书中解释这个正则表达式?
- 为什么这个正则表达式C++在括号表达式中抛出无效范围异常?
- C++:匹配正则表达式,什么是匹配?
- 提升正则表达式、正则表达式、url 和 img