如何使用卡萨布兰卡 (PPL) http_client返回的 XmlLite 处理 XML

How to process the XML using XmlLite returned by the casablanca (PPL) http_client?

本文关键字:返回 client XmlLite XML 处理 http 卡萨布兰卡 何使用 PPL      更新时间:2023-10-16

我想向 Web 服务发出请求,获取 XML 内容,并解析它以获取服务返回的特定值。

代码将以本机 C++11 (MS Visual Studio 2013( 编写。选择了Cassablanca PPL图书馆。对于XML解析,选择了XmlLite。

我习惯于C++编程;然而,来自PPL库的异步任务编程 - 这种方法 - 对我来说是新的。我知道异步编程是什么,我知道并行编程的原理。但是,我不习惯使用延续(.then(...)(,我只是慢慢地围绕这个概念。

到目前为止,我已经修改了示例以获取XML结果并将其写入文本文件:

// Open a stream to the file to write the HTTP response body into.
auto fileBuffer = std::make_shared<concurrency::streams::streambuf<uint8_t>>();
file_buffer<uint8_t>::open(L"test.xml", std::ios::out)
    .then([=](concurrency::streams::streambuf<uint8_t> outFile) -> pplx::task < http_response >
{
    *fileBuffer = outFile;
    // Create an HTTP request.
    // Encode the URI query since it could contain special characters like spaces.
    // Create http_client to send the request.
    http_client client(L"http://api4.mapy.cz/");
    // Build request URI and start the request.
    uri_builder builder(L"/geocode");
    builder.append_query(L"query", address);
    return client.request(methods::GET, builder.to_string());
})
    // Write the response body into the file buffer.
    .then([=](http_response response) -> pplx::task<size_t>
{
    printf("Response status code %u returned.n", response.status_code());
    return response.body().read_to_end(*fileBuffer);
})
    // Close the file buffer.
    .then([=](size_t)
{
    return fileBuffer->close();
})
    // Wait for the entire response body to be written into the file.
    .wait();

现在,我需要了解如何修改代码以获得可以使用 XmlLite 的结果(Microsoft实现以 xmllite.hxmllite.libxmllite.dll 的形式提供。我知道什么是拉取解析器。但同样,我对图书馆很陌生。我仍然对PPL相关的流和其他课程感到有些迷茫。我不知道如何正确使用它们。任何解释都非常受欢迎。

Cassablanca的人说他们使用XmlLite和Cassablanca来处理结果,但我没有找到任何例子。你能给我指出一些吗?谢谢。

更新(2014年6月4日(:上面的代码实际上是包装成这样的函数(wxString来自wxWidgets,但可以很容易地用std::stringstd::wstring替换它(:

std::pair<double, double> getGeoCoordinatesFor(const wxString & address)
{
    ...the above code...
    ...here should be the XML parsing code...
    return {longitude, latitude};
}

目标实际上是将流写入test.xml文件以馈送 XmlLite 分析器。XML相当小,它包含一个或多个(如果地址不明确(项目元素,其中包含我要提取的x和y属性 - 如下所示:

<?xml version="1.0" encoding="utf-8"?>
<result>
    <point query="Vítězství 27, Olomouc">
        <item
                x="17.334045"
                y="49.619723"
                id="9025034"
                source="addr"
                title="Vítězství 293/27, Olomouc, okres Olomouc, Česká republika"
        />
        <item
                x="17.333067"
                y="49.61618"
                id="9024797"
                source="addr"
                title="Vítězství 27/1, Olomouc, okres Olomouc, Česká republika"
        />
    </point>
</result>

我不需要那个test.xml文件。如何获取流以及如何将其重定向到 XmlLite 分析器?

我还没有使用过卡萨布兰卡,所以这可能有点不对劲。 (我很想和卡萨布兰卡合作,但我必须先凑出更多的时间。也就是说,看起来您显示的代码将下载一个 xml 文件并将其保存到本地文件test.xml。从那时起,如果 xml 文件以 UTF-8 编码,则可以直接将文件加载到 XmlLite 中。如果它不是 UTF-8,您将不得不跳过一些额外的箍来解码它,无论是在内存中还是通过 CreateXmlReaderInputWithEncodingNameCreateXmlReaderInputWithCodePage ,我不会在这里介绍。

获得 UTF-8 文件或处理编码后,使用 XmlLite 启动 XML 分析的最简单方法显示在 CreateXmlReader 文档中:

//Open read-only input stream
if (FAILED(hr = SHCreateStreamOnFile(argv[1], STGM_READ, &pFileStream)))
{
    wprintf(L"Error creating file reader, error is %08.8lx", hr);
    return -1;
}
if (FAILED(hr = CreateXmlReader(__uuidof(IXmlReader), (void**) &pReader, NULL)))
{
    wprintf(L"Error creating xml reader, error is %08.8lx", hr);
    return -1;
}

在您的情况下,您希望跳过该文件,因此您需要在内存中创建IStream。您有三个主要选项:

  1. 将字符串视为内存缓冲区并使用pMemStream = SHCreateMemStream(szData, cbData)
  2. 从卡萨布兰卡流式传输到使用 CreateStreamOnHGlobal(NULL, true, &pMemStream) 创建的IStream,然后在完成检索后将其用作源
  3. 为卡萨布兰卡的concurrency::streams::istream创建一个IStream包装器,将其异步性隐藏在IStream接口后面

一旦你有了你的流,你必须用IXmlReader::SetInput告诉你的读者。

hr = pReader->SetInput(pStream);

无论上述选项如何,我都建议使用 RAII 类,例如 ATL 的 CComPtr<IStream>CComPtr<IXMLReader> 对于它们显示为 pFileStreampReader 的变量,或者我建议的pMemStream。这也是当您需要重写任何属性时,例如,如果您必须处理比 XmlLite 默认更深的递归。然后就是拉读文件了。最简单的循环记录在 IXmlReader::Read 方法上;以下是一些最重要的部分,但请注意,为了可读性,我省略了错误检测:

void Summarize(IXmlReader *pReader, LPCWSTR wszType)
{
    LPCWSTR wszNamespaceURI, wszPrefix, wszLocalName, wszValue;
    UINT cchNamespaceURI, cchPrefix, cchLocalName, cchValue;
    pReader->GetNamespaceURI(&wszNamespaceURI, &cchNamespaceURI);
    pReader->GetPrefix(&wszPrefix, &cchPrefix);
    pReader->GetLocalName(&wszLocalName, &cchLocalName);
    pReader->GetValue(&wszValue, &cchValue);
    std::wcout << wszType << L": ";
    if (cchNamespaceURI) std::wcout << L"{" << wszNamespaceURI << L"} ";
    if (cchPrefix)       std::wcout << wszPrefix << L":";
    std::wcout << wszLocalName << "='" << wszValue << "'n";
}
void Parse(IXmlReader *pReader)
{
    // Read through each node until the end
    while (!pReader->IsEOF())
    {
        hr = pReader->Read(&nodeType);
        if (hr != S_OK)
            break;
        switch (nodeType)
        {
            //  : : :
            case XmlNodeType_Element:
                Summarize(pReader, L"BeginElement");
                while (S_OK == pReader->MoveToNextAttribute())
                    Summarize(pReader, L"Attribute");
                pReader->MoveToElement();
                if (pReader->IsEmptyElement())
                    std::wcout << L"EndElementn";
                break;
            case XmlNodeType_EndElement:
                std::wcout << L"EndElementn";
                break;
            //  : : :
         }
    }
}

该示例代码中的其他一些部分包括对E_PENDING的检查,如果整个文件尚不可用,则检查可能相关。让卡萨布兰卡http_resposne::body提供自定义IStream实现可能会"更好",XmlLite 可以在下载的同时开始处理;这个讨论线程涵盖了这个想法,但似乎没有规范的解决方案。根据我的经验,XmlLite 的速度非常快,以至于它造成的延迟无关紧要,因此从完整文件中处理它可能就足够了,尤其是在完成处理之前确实需要完整文件的情况下。

如果您需要更好地将其集成到异步系统中,则会有更多的箍。显然,上面的while循环本身并不是异步的。我的猜测是,使其异步的正确方法将在很大程度上取决于文件的内容和读取文件时必须进行的处理,以及是否将其绑定到可能没有所有数据的自定义IStream可用。由于我对卡萨巴兰卡的异步性没有任何经验,因此我无法对此发表有用的评论。

这是否解决了您正在寻找的内容,或者这是您已经知道的部分,并且您正在寻找 Casabalanka http_response::bodyIStream包装器或使 XmlLite 的处理异步的提示?