有没有一个C++库可以从PDF文件中提取文本，比如PDFBox for Java

Is there a C++ library to extract text from a PDF file like PDFBox for Java?

本文关键字：取文本提取比如 Java for PDFBox 文件 PDF C++ 有一个更新时间：2023-10-16

去年，我用PDFBox在Java中制作了一个应用程序，以获取一些PDF文件中的原始文本，现在我需要将该应用程序移植到C++。

我想知道什么是最好的C++替代方案来完成我需要的东西。

如果有帮助的话，我会举一个例子：

大多数文件将如下所示：http://www.jumbala.net/backup/league.pdf

使用PDFBox，使用该文件，在第2页和第3页的大部分时间读取的每一行都将输出一行的所有数据，用空格分隔，而不是像现在这样将其保留在网格中。

因此，第2页中的第一行相关内容如下：

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

或者类似的东西，因为它们的出现顺序有微小的变化，但我不在乎，只要类似的行输出相同，因为我只是解析它们，并将我需要的值放入不同的变量中。

那么，知道了所有这些，有没有一个库可以在C++程序中使用，以获得类似的结果？

编辑：在上查看了sacredFaith的链接后http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file尝试一下，我得到了一个奇怪的输出，就像我前面提到的示例文件：

http://www.jumbala.net/backup/league.pdf.txt

我真正需要的部分是开头那些奇怪的角色。使用Adobe Acrobat Reader X并使用"另存为…文本"（可访问），我得到以下结果：

http://www.jumbala.net/backup/league_good.pdf.txt

这大约是我在Java中使用PDFBox得到的，也是我希望在C++中得到的输出。

Xpdf是一个C++应用程序/库，其中包括从PDF文件中提取纯文本的工具。

因为这就是您想要的：PoDoFo是用于解析/读取/修改或创建pdf文件的C++库。图书馆是跨平台的。

我从未使用过以下内容，但在谷歌搜索后我发现：

http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file