如何在纯c++中从MS word文档文件中提取纯文本

How to extract plain text from MS word document file in pure C++?

本文关键字:文件 文档 word 提取 文本 MS c++ 中从      更新时间:2023-10-16

是否有任何纯c++库从。doc文件中提取纯文本?

我正在开发一个c++程序来读取。doc和。pdf文件。我必须从文件中提取纯文本并将其写入.txt文件。

您可以看看Abiword使用的开源C库,wv。

还可以调用批量转换工具

  • 开源批处理转换器,基于OpenOffice: http://dag.wieers.com/home-made/unoconv/
  • unix的开放源代码:http://www.wagner.pp.ru/~vitus/software/catdoc/
  • windows专有:http://doc2txt.com/。注意,我还没有试过这个。

如果您想操作/读取.doc文件,您可以花时间学习格式并手动操作.doc文件。你可以在MSDN页面上获得它,链接到格式规范(PDF文件)。
我承认,这是相当多的阅读,但如果你想创建软件来操作/读取文件,你应该有相关的基础知识来支持这一切。

同样适用于pdf格式(这是一种开放格式,因此规范应该很容易找到)。

For doc -使用Word对象模型获取文档并提取文本。这个例子使用OLE自动化和C语言。DOCX的另一个链接可能会对您有所帮助。

PDF -使用Haru

你可以一直使用OIVT (OutsideIn Viewer Technology,我想),现在属于oracle。

老实说,这不是一个便宜的解决方案,虽然这个产品是让你看,打印等…我想如果我没记错的话,他们确实提供了一个将内容提取为文本的选项,或者他们的其他产品也有这个功能。它可以从几乎任何文档类型,包括doc, docx, PDF(仅举几例),而不必使用安装的"原始"应用程序,因为它们有自己的一组过滤器。

这里有一个链接让你开始

Outside In Viewer technology

好运