C++ libcurl - 无法从 URL 检索整个 html 内容

C++ libcurl - Can't retrieve whole html content from URL

本文关键字：检索 html 内容 URL libcurl C++ 更新时间：2023-10-16

使用C++和libcurl库，我试图以这种方式从这个网站获取完整的 HTML，https://www.nutritionix.com/food/Banana：

int main(){
std::string content;
curl_global_init(CURL_GLOBAL_ALL);
CURL *curl = nullptr;
curl = curl_easy_init();
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://www.nutritionix.com/food/Banana" );
curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &content);
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
CURLcode code = curl_easy_perform(curl);
curl_easy_cleanup(curl);
}
curl_global_cleanup();
std::cout << content << std::endl;
system("pause");
}

writer函数是这样定义的：

static int writer(char *data, size_t size, size_t nmemb, std::string *writerData) {
if (writerData == NULL)
return 0;
writerData->append(data, size*nmemb);
return size * nmemb;
}

通过这种方式，我只能获得很少的 HTML 代码，但是我如何检索完整的 HTML 内容以在稍后阶段解析它？

你不能

，或者更好地说：你拥有网站调用的整个html内容。

现代网站上的简单 http 请求只会返回一些 70 个字符长的响应，其中包含一些脚本和元数据。脚本在加载时执行，之后将填充页面内容。

自己尝试一下

访问 https://www.nutritionix.com/food/Banana
按 + 移位 + i
转到"网络"选项卡并重新加载页面
单击列表中名为"香蕉"的第一项
点击右侧的"响应">

这是执行上述代码后字符串包含的内容