使用 c++ 的可视化网络爬虫

visual Web Crawler using c++

本文关键字:网络 爬虫 可视化 c++ 使用      更新时间:2023-10-16

我打算用 c++ 抓取一个网站。我已经收集了有关如何从基地抓取网站的信息。我使用 winhttp 库下载网页。我想构建自己的库,而不是使用第三方库。我收集的信息是:

1.检查机器人.txt查找可以抓取的页面并找到请求时间间隔。

2.检查网站是否有站点地图.xml并从中收集信息。

3.检查所有 href 或 url 标签并找到其中的文件夹。

为了完全抓取网站,我还应该做些什么吗?

您应该添加数据库支持。我建议使用 Sqlite3。您应该有一种机制来存储爬网程序的当前状态,以便在过早终止的情况下,它可以从上次停止的位置继续。使用 winhttp 库可能会带来一些限制:- HTTPS支持将受到一些限制。例如,最多支持 128 位(请参阅 WinHTTP 中的 SSL(。- 无效/过期SSL证书的保证金情况,可由浏览器用户覆盖。还有带有HTTPS前缀的HTTP站点,反之亦然。我会使用 libcurl 和 OpenSSL 而不是 winhttp。