用C++提取HTML标记

Extracting HTML tags with C++

本文关键字：标记 HTML 提取 C++ 更新时间：2023-10-16

我目前正在开发一个用C++为搜索引擎编写的爬网程序，该爬网程序将获得HTML文件的列表，需要提取HTML标记并将其放入文件中。

我听说过使用XML解析器，但我不知道如何将HTML文件转换为XHTML，除此之外，转换为XHTML在性能方面非常昂贵。C++中的html解析器几乎不存在。

第三种方法是使用boost regex从HTML文件中提取这些标签，但我需要提取所有标签（p，h1，h2，a…），所以这会有点太长

关于如何在C++中获得HTML标记，还有其他解决方案吗？

尝试使用xml解析器解析它，我通常使用RapidXML在这里检查

您将获得HTML文件的所有标记和属性。

您可以使用libxml中的HTML解析器。