用C++提取HTML标记

Extracting HTML tags with C++

本文关键字:标记 HTML 提取 C++      更新时间:2023-10-16

我目前正在开发一个用C++为搜索引擎编写的爬网程序,该爬网程序将获得HTML文件的列表,需要提取HTML标记并将其放入文件中。

我听说过使用XML解析器,但我不知道如何将HTML文件转换为XHTML,除此之外,转换为XHTML在性能方面非常昂贵。C++中的html解析器几乎不存在。

第三种方法是使用boost regex从HTML文件中提取这些标签,但我需要提取所有标签(p,h1,h2,a…),所以这会有点太长

关于如何在C++中获得HTML标记,还有其他解决方案吗?

尝试使用xml解析器解析它,我通常使用RapidXML在这里检查

您将获得HTML文件的所有标记和属性。

您可以使用libxml中的HTML解析器。