Boost::asio::streambuf通过https检索XML数据

boost::asio::streambuf retrieve xml data though https

本文关键字:检索 XML 数据 https 通过 asio streambuf Boost      更新时间:2023-10-16

我正在与亚洲的流媒体管理作斗争。我在ubuntu上使用boost 1.58。首先,下面是代码:

#include <iostream>
#include <boost/bind.hpp>
#include <boost/asio.hpp>
#include <boost/asio/ssl.hpp>
#include <boost/asio/buffer.hpp>
#include <boost/asio/completion_condition.hpp>
class example
{
private:
    // asio components
    boost::asio::io_service service;
    boost::asio::ssl::context context;
    boost::asio::ip::tcp::resolver::query query;
    boost::asio::ip::tcp::resolver resolver;
    boost::asio::ssl::stream<boost::asio::ip::tcp::socket> socket;
    boost::asio::streambuf requestBuf, responseBuf;
    // callbacks
    void handle_resolve(const boost::system::error_code& err,
                            boost::asio::ip::tcp::resolver::iterator endpoint_iterator)
    {
        if (!err)
        {
            boost::asio::async_connect(socket.lowest_layer(), endpoint_iterator,
                boost::bind(&example::handle_connect, this,
                    boost::asio::placeholders::error));
        }
    }
    void handle_connect(const boost::system::error_code& err)
    {
        if (!err)
        {
          socket.async_handshake(boost::asio::ssl::stream_base::client,
              boost::bind(&example::handle_handshake, this,
                boost::asio::placeholders::error));
        }
    }
    void handle_handshake(const boost::system::error_code& err)
    {
        if (!err)
        {
            boost::asio::async_write(socket, requestBuf,
                boost::bind(&example::handle_write_request, this,
                    boost::asio::placeholders::error,
                    boost::asio::placeholders::bytes_transferred));
        }
    }
    void handle_write_request(const boost::system::error_code& err, size_t bytes_transferred)
        {
            if (!err)
            {
                boost::asio::async_read(socket, responseBuf,
                    boost::asio::transfer_at_least(1),
                    boost::bind(&example::handle_read, this,
                        boost::asio::placeholders::error,
                        boost::asio::placeholders::bytes_transferred));
            }
        }
    void handle_read(const boost::system::error_code& err,
                             size_t bytes_transferred)
    {
        if (!err)
        {
            boost::asio::async_read(socket, responseBuf,
                boost::asio::transfer_at_least(1),
                boost::bind(&example::handle_read, this,
                    boost::asio::placeholders::error,
                    boost::asio::placeholders::bytes_transferred));
        }
    }
public:
    example() : context(boost::asio::ssl::context::sslv23),
                resolver(service),
                socket(service, context),
                query("www.quandl.com", "443") {}
    void work()
    {
        // set security
        context.set_default_verify_paths();
        socket.set_verify_mode(boost::asio::ssl::verify_peer);
        // in case this no longer works, generate a new key from https://www.quandl.com/
        std::string api_key = "4jufXHL8S4XxyM6gzbA_";
        // build the query
        std::stringstream ss;
        ss << "api/v3/datasets/";
        ss << "RBA" << "/" << "FXRUKPS" << ".";
        ss << "xml" << "?sort_order=asc";
        ss << "?api_key=" << api_key;
        ss << "&start_date=" << "2000-01-01";
        ss << "&end_date=" << "2003-01-01";
        std::ostream request_stream(&requestBuf);
        request_stream << "GET /";
        request_stream << ss.str();
        request_stream << " HTTP/1.1rn";
        request_stream << "Host: " << "www.quandl.com" << "rn";
        request_stream << "Accept: */*rn";
        request_stream << "Connection: closernrn";
        resolver.async_resolve(query,
            boost::bind(&example::handle_resolve, this,
                boost::asio::placeholders::error,
                boost::asio::placeholders::iterator));
        service.run();
        std::cout << &responseBuf;
    }
};
int main(int argc, char * argv[])
{
    // this is a test
    int retVal; try
    {
        example f; f.work();
        retVal = 0;
    }
    catch (std::exception & ex)
    {
        std::cout << "an error occured:" << ex.what() << std::endl;
        retVal = 1;
    }
    return retVal;
}

这是我的问题:如果结果数据不太长(几千个字符),这个例子就可以完美地工作。然而,一旦async_read返回的字符数量不均匀(默认bytes_transfer是512个字符),streambuf就会损坏,下一次async_read调用将包含一些额外的字符。

我尝试了上面代码的许多变体,但没有成功:使用transfer_exactly(),调用streambuf.consume()来清除缓冲区,在检测到返回的字符数量不均匀时传递另一个缓冲区,等等。这些方法都不起作用。

我在这里错过了什么?Thx

在评论交换中确定,服务器正在使用分块传输编码:

分块传输编码是1.1版本中的数据传输机制HTTP (Hypertext Transfer Protocol,超文本传输协议),其中数据以一种方式发送一系列的"块"。它使用Transfer-Encoding HTTP报头

每个chunk以十六进制chunk长度和CRLF开头。如果你不熟悉块传输,它确实会出现有奇怪的字符破坏你的数据流。

在发送前不方便确定响应体的确切长度时,通常使用分块传输编码。由此可见,在处理最后的零长度数据块之前,接收方不知道数据体长度(注意,在最后的数据块之后可能会出现尾标"header",也就是"trailers")。

使用boost::asio,您可以使用async_read_until()通过CRLF分隔符读取块头,解析长度,然后使用async_read()transfer_exactly来获取块数据。注意,一旦开始使用streambuf进行读取,就应该继续使用相同的streambuf实例,因为它可能缓冲额外的数据(这里将讨论从streambuf提取特定数量的数据)。还要注意,块数据以CRLF结束(不包括在长度中),您应该丢弃它。

使用boost::asio编写自己的HTTP客户端可能很有指导意义(如果你有时间和好奇心,甚至会很有趣),但要涵盖HTTP标准中的所有选项(例如压缩、预告、重定向)并不容易。您可能需要考虑像libcurl这样成熟的客户端库是否适合您的需求。