用C++提取HTML标记
Extracting HTML tags with C++
我目前正在开发一个用C++为搜索引擎编写的爬网程序,该爬网程序将获得HTML文件的列表,需要提取HTML标记并将其放入文件中。
我听说过使用XML解析器,但我不知道如何将HTML文件转换为XHTML,除此之外,转换为XHTML在性能方面非常昂贵。C++中的html解析器几乎不存在。
第三种方法是使用boost regex从HTML文件中提取这些标签,但我需要提取所有标签(p,h1,h2,a…),所以这会有点太长
关于如何在C++中获得HTML标记,还有其他解决方案吗?
尝试使用xml解析器解析它,我通常使用RapidXML在这里检查
您将获得HTML文件的所有标记和属性。
您可以使用libxml中的HTML解析器。
相关文章:
- 将依赖名称显式标记为类型名和模板的奇怪之处
- 为什么output_editor Concept不需要output_e迭代器标记
- 标记 '","' 之前的预期主表达式
- 为什么g++在未执行的代码处标记强制转换错误
- muQueue.front() 给出了 const 实例,即使我没有将其标记为 const
- 使用 boost 进行标记化会给出相同的输出
- 为什么 -mmacosx-version-min=10.10 不阻止使用标记为从 10.11 开始的函数?
- 错误 C2760:语法错误:映射迭代器上意外的标记"标识符",预期的";"
- C++标头错误 C2238 意外标记";"
- 语句错误:"","标记之前有"预期的')'
- 编译 llvm 3.1 时,为什么会出现错误:在">"标记之前预期主表达式
- Flex/Bison标记为HTML程序
- C++编辑 html 中的 src= " " 标记
- 如何使用c++只查找特定HTML标记的内容
- 导航到 vim 中当前 html 标记的末尾
- Qt-html解析未找到任何标记
- 用于HTML图像标记的QRegExp
- 用C++打印HTML标记
- 用C++提取HTML标记
- 如何使用BoostptreeC++解析值中包含HTML标记的XML