C++ libcurl - 无法从 URL 检索整个 html 内容
C++ libcurl - Can't retrieve whole html content from URL
使用C++和libcurl库,我试图以这种方式从这个网站获取完整的 HTML,https://www.nutritionix.com/food/Banana:
int main(){
std::string content;
curl_global_init(CURL_GLOBAL_ALL);
CURL *curl = nullptr;
curl = curl_easy_init();
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://www.nutritionix.com/food/Banana" );
curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &content);
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
CURLcode code = curl_easy_perform(curl);
curl_easy_cleanup(curl);
}
curl_global_cleanup();
std::cout << content << std::endl;
system("pause");
}
writer
函数是这样定义的:
static int writer(char *data, size_t size, size_t nmemb, std::string *writerData) {
if (writerData == NULL)
return 0;
writerData->append(data, size*nmemb);
return size * nmemb;
}
通过这种方式,我只能获得很少的 HTML 代码,但是我如何检索完整的 HTML 内容以在稍后阶段解析它?
你不能
,或者更好地说:你拥有网站调用的整个html内容。
现代网站上的简单 http 请求只会返回一些 70 个字符长的响应,其中包含一些脚本和元数据。脚本在加载时执行,之后将填充页面内容。
自己尝试一下
- 访问 https://www.nutritionix.com/food/Banana
- 按 + 移位 + i
- 转到"网络"选项卡并重新加载页面
- 单击列表中名为"香蕉"的第一项
- 点击右侧的"响应">
这是执行上述代码后字符串包含的内容
相关文章:
- 使用VerQueryValue检索应用程序的文件描述
- 是否可以从格式字符串中检索"width"
- 使用 pqxx 将 std::vector 存储在 postgresql 中,并从数据库中检索它
- 简单的 HTML 验证器
- 如何在QByteArray中放置和检索位字段而不会感到痛苦?
- 如何在Qt中从数据库中检索二进制数据?
- 如何在 html 页面中插入 cgi 应用程序的输出?
- 如何从C++代码中检索 QML 的文本字段中的文本?
- 从 opencv c++ 中的矢量中检索固定的帧数
- 如何在不等待检索的情况下获取C++中的内存位置?
- 如何在 QTreeWidget 中检索特定项目的 mimeData?
- C++从字符串中检索几行
- 在数据库中插入和检索矩阵
- 两个垫子的 OpenCV 数据是相同的,但使用 Mat::at 检索时的值已损坏
- 使用 const char* 键映射 C++ 检索空值
- 打印从SQLite3数据库检索的数据C++与命令行中相同的方式
- 如何检索指向在单独线程上运行的函数的移动指针?
- C++ libcurl - 无法从 URL 检索整个 html 内容
- Outlook 2010 c++插件- HTML电子邮件正文检索
- 访问用QNetworkReply检索的html表