提升正则表达式、正则表达式、url 和 img

Boost regex, regular expression, url and img

本文关键字:正则表达式 img url      更新时间:2023-10-16

我需要在网页的HTML源代码中找到所有链接和图像。实际上我有以下表达方式:

boost::regex findurl("(?s)<\s*a\s+.*?href\s*=\s*['"]([^http]{1}[^\s>]*)['"]", boost::regex::normal | boost::regbase::icase);

查找图像(标签)应该是什么样子的?

学习Perl和使用HTML::P arser所花费的时间比调试这个不适用于病理HTML的正则表达式的时间要少。 我已经可以在其中发现链接的三个错误,即使您只询问图像。

这包括示例代码,即使您不了解 Perl,您也可以弄清楚如何修改。 http://perlmeme.org/tutorials/html_parser.html

在字符类 ( [^http] ) 中重复字符似乎不正确。 djechlin有一个观点,因为RE可能是不够的,但对于最简单的HTML来说。