有没有一个C++库可以从PDF文件中提取文本,比如PDFBox for Java
Is there a C++ library to extract text from a PDF file like PDFBox for Java?
去年,我用PDFBox在Java中制作了一个应用程序,以获取一些PDF文件中的原始文本,现在我需要将该应用程序移植到C++。
我想知道什么是最好的C++替代方案来完成我需要的东西。
如果有帮助的话,我会举一个例子:
大多数文件将如下所示:http://www.jumbala.net/backup/league.pdf
使用PDFBox,使用该文件,在第2页和第3页的大部分时间读取的每一行都将输出一行的所有数据,用空格分隔,而不是像现在这样将其保留在网格中。
因此,第2页中的第一行相关内容如下:
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
或者类似的东西,因为它们的出现顺序有微小的变化,但我不在乎,只要类似的行输出相同,因为我只是解析它们,并将我需要的值放入不同的变量中。
那么,知道了所有这些,有没有一个库可以在C++程序中使用,以获得类似的结果?
编辑:在上查看了sacredFaith的链接后http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file尝试一下,我得到了一个奇怪的输出,就像我前面提到的示例文件:
http://www.jumbala.net/backup/league.pdf.txt
我真正需要的部分是开头那些奇怪的角色。使用Adobe Acrobat Reader X并使用"另存为…文本"(可访问),我得到以下结果:
http://www.jumbala.net/backup/league_good.pdf.txt
这大约是我在Java中使用PDFBox得到的,也是我希望在C++中得到的输出。
Xpdf是一个C++应用程序/库,其中包括从PDF文件中提取纯文本的工具。
因为这就是您想要的:PoDoFo是用于解析/读取/修改或创建pdf文件的C++库。图书馆是跨平台的。
我从未使用过以下内容,但在谷歌搜索后我发现:
http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file
- 如何从也包含C++字母的文本文件中提取某些数字?
- 模式匹配文本并提取C++中的数据
- 遍历对象向量,并找到与从文本文件中提取的对象匹配的变量
- 将文本文件数据读入字符数组时提取运算符的歧义
- 使用 substr 提取文本文件时出现问题
- 接受多个输入(如 +、- 和平方数字)的计算器.从文本文件中提取信息
- 长方程加法/减法计算器,从文本文件中提取运算符和数字
- 从 PDF 中提取第一行文本
- 在特定字段中关键字搜索后,从文本文件中提取多个记录
- 如何用c++打印从文本文件中提取的非英文字符
- 程序未正确从文本文件中提取信息
- 从文本中抓取句子,将所有句子分别存储在某个数据结构中
- 从C 中的文本提取数字---分割故障
- 从文本文件中读取输入并将其提取 - C++
- 从C++中的文本文件中提取并使用特定数据
- 从二进制文件中抓取文本时,为什么 xdg_vtnr=8 是我的结果
- 有没有任何方法可以从C++中的文本中提取URL
- 可视化从文本C++中提取字符串数据
- 分析文本文件以提取字符串
- 从Windows应用程序的文本框中抓取文本