如何在纯c++中从MS word文档文件中提取纯文本
How to extract plain text from MS word document file in pure C++?
是否有任何纯c++库从。doc文件中提取纯文本?
我正在开发一个c++程序来读取。doc和。pdf文件。我必须从文件中提取纯文本并将其写入.txt文件。
您可以看看Abiword使用的开源C库,wv。
还可以调用批量转换工具
- 开源批处理转换器,基于OpenOffice: http://dag.wieers.com/home-made/unoconv/
- unix的开放源代码:http://www.wagner.pp.ru/~vitus/software/catdoc/
- windows专有:http://doc2txt.com/。注意,我还没有试过这个。
如果您想操作/读取.doc文件,您可以花时间学习格式并手动操作.doc文件。你可以在MSDN页面上获得它,链接到格式规范(PDF文件)。
我承认,这是相当多的阅读,但如果你想创建软件来操作/读取文件,你应该有相关的基础知识来支持这一切。
同样适用于pdf格式(这是一种开放格式,因此规范应该很容易找到)。
For doc -使用Word对象模型获取文档并提取文本。这个例子使用OLE自动化和C语言。DOCX的另一个链接可能会对您有所帮助。
PDF -使用Haru
你可以一直使用OIVT (OutsideIn Viewer Technology,我想),现在属于oracle。
老实说,这不是一个便宜的解决方案,虽然这个产品是让你看,打印等…我想如果我没记错的话,他们确实提供了一个将内容提取为文本的选项,或者他们的其他产品也有这个功能。它可以从几乎任何文档类型,包括doc, docx, PDF(仅举几例),而不必使用安装的"原始"应用程序,因为它们有自己的一组过滤器。
这里有一个链接让你开始
Outside In Viewer technology
好运相关文章:
- 如何在文档文件夹中创建目录
- 如何使用PHP将上传到本地主机的一个html文件重定向到磁盘上的另一个html文档
- 如何在“文档”文件夹中指向文件夹
- BSONCXX-是否有一种方法可以通过.bson转储文件中的文档进行迭代
- 从Windows上的系统工作的服务中获取用户文档文件夹.C++
- 打开Windows Explorer中的公共文档文件夹
- 如何在文件中添加Rapidjson ::文档
- 如何将数据文件加载到自动Excel工作表文档
- 查看Doxygen文档中的.cxx文件以及.h文件
- 如何使用 c++ 中的文件读取和写入文档、pdf 文件
- 使用 cpp 文件中的现有代码范围作为文档示例
- Windows 8:如何以编程方式读取用户文档文件夹路径(使用 c)
- 无法使用沙堡 (SHFB) 生成 XML 文档帮助文件
- 如何对文件文档枚举进行多行
- 如何在 DOXYGEN 文档中获取我的 .cpp 文件
- xml_node<wchar_t> 我正在使用快速 xml 将 XML 文档打印到文件
- 在哪里可以获得.doc文件格式的文档
- XDC文档文件中的参考手册
- c++/查找有关目录和文件的文档(如dirent.h)
- 如何通过级联QML在blackberry 10设备文档目录中创建XML文件