使用 c++ 的可视化网络爬虫
visual Web Crawler using c++
我打算用 c++ 抓取一个网站。我已经收集了有关如何从基地抓取网站的信息。我使用 winhttp 库下载网页。我想构建自己的库,而不是使用第三方库。我收集的信息是:
1.检查机器人.txt查找可以抓取的页面并找到请求时间间隔。
2.检查网站是否有站点地图.xml并从中收集信息。
3.检查所有 href 或 url 标签并找到其中的文件夹。
为了完全抓取网站,我还应该做些什么吗?
您应该添加数据库支持。我建议使用 Sqlite3。您应该有一种机制来存储爬网程序的当前状态,以便在过早终止的情况下,它可以从上次停止的位置继续。使用 winhttp 库可能会带来一些限制:- HTTPS支持将受到一些限制。例如,最多支持 128 位(请参阅 WinHTTP 中的 SSL(。- 无效/过期SSL证书的保证金情况,可由浏览器用户覆盖。还有带有HTTPS前缀的HTTP站点,反之亦然。我会使用 libcurl 和 OpenSSL 而不是 winhttp。
相关文章:
- 我的神经网络不起作用 [XOR 问题]
- GetShortPathName在网络驱动器上使用中文文件夹时失败
- 通过网络、跨平台传递std::变体是否安全
- 如何在MNIST上提高网络运行的准确性
- Active Directory:从网络服务帐户下运行的Windows服务调用ADsOpenObject时失败
- OpenCV 4.1.2 - 从网络摄像头获取帧并将其拆分
- 使用OpenCV和覆盆子上的多个网络摄像头拍摄延时摄影,出现多个V4L错误
- 神经网络不学习.卡在50%
- 如何绑定 C++ gRPC 客户端的网络接口
- 在本地网络中通过OpenCV(C++)实时流式传输图像
- 在不知道套接字的情况下关闭网络连接
- 是否有 Windows 用户空间函数来枚举连接的网络共享?
- 在没有管理员权限的情况下连接到同一网络中的命名管道
- 无法为 X.radio 创建中等可视化,因为找不到网络节点可视化 - Omnet++
- 将传入的网络"char*"数据转换为"uint8_t"并返回的安全方法是什么?
- 像 POCO 这样的C++图书馆如何访问网络?
- 使用 c++ 的可视化网络爬虫
- C++网络爬虫
- 网络爬虫在read()中下载网页的recv缓冲区应该有多大
- 网络爬虫链接提取问题