从文本到XML

From text to XML

本文关键字:XML 文本      更新时间:2023-10-16

我想知道是否有任何方法通过使用c++libxml.txt创建XML文件?

输入文件如下:

"< url   >..........< / url>
<description>His work points a way forward for saving the oceans' health -- and humanity's.</description>
<keywords>fish,health,mission blue,oceans,science</keywords>
<talkid>899</talkid>
<title>Stephen Palumbi: Following the mercury trail</title>
<transcript>
It can be a very complicated thing, the ocean.
And it can be a very complicated thing, what human health is. " 
after transcript I have a huge text
after the tag </transcript>

另一个块以相同的结构开始我想要的是构建整个东西并将元数据重新组合在一起,因为之后我需要单独处理文本

了解什么是有效的xml文档是很重要的?简而言之,它必须满足DTD或模式(xml模式、松弛模式、模式表或其他约束)才能有效。

从问题的措辞来看,它最有可能问的是:

"如何确保文件包含格式良好的XML文档,并读取这些元素?无论XML是在一个扩展名为。text的文件中还是在u/op ǝpısdn answer".

中提到的其他文件中都无关紧要。

答案是,如果XML文档可以被兼容的XML解析器成功解析,那么它就是格式良好的。假设你的文本文件包含格式良好的XML,它可以被任何兼容的XML解析器读取…

你可以自己试着用

读取你的"text"文件
http://www.xmlsoft.org/
http://www.grinninglizard.com/tinyxml/

也值得一看

http://www.w3schools.com/xml/xml_whatis.asp

文件以.txt.xml.whatnot结尾的事实是无关的。

.*添加到文件名只是一种惯例。一种节省您打开每个文件来验证格式的时间的方法,或者给程序一个提示,以便它知道它在处理什么。提示是关键字——文件可以有任意名称,它们不强制遵循约定。

打开一个有效的xml格式的文件是相同的过程,无论文件名是否以.xml结尾。

<标题>编辑

你说文件有许多XML块,但不是XML本身——XML确实需要一个最外面的标签。只需在文件的开头和结尾添加<root></root>。如果你愿意,可以将其重命名为xml

换句话说,您应该问自己的问题是如何在向XML解析器提供文件之前和之后向其提供额外的数据。像这样:

parser.feed('<root>')
parser.feed(read('file.txt'))
parser.feed('</root>')