提升正则表达式、正则表达式、url 和 img

Boost regex, regular expression, url and img

本文关键字：正则表达式 img url 更新时间：2023-10-16

我需要在网页的HTML源代码中找到所有链接和图像。实际上我有以下表达方式：

boost::regex findurl("(?s)<\s*a\s+.*?href\s*=\s*['"]([^http]{1}[^\s>]*)['"]", boost::regex::normal | boost::regbase::icase);

查找图像（标签）应该是什么样子的？

学习Perl和使用HTML：:P arser所花费的时间比调试这个不适用于病理HTML的正则表达式的时间要少。我已经可以在其中发现链接的三个错误，即使您只询问图像。

这包括示例代码，即使您不了解 Perl，您也可以弄清楚如何修改。 http://perlmeme.org/tutorials/html_parser.html

在字符类（ [^http] ）中重复字符似乎不正确。 djechlin有一个观点，因为RE可能是不够的，但对于最简单的HTML来说。