Apache Tika的C/C++替代方案

C/C++ alternative to Apache Tika

本文关键字:方案 C++ Tika Apache      更新时间:2023-10-16

我正在为基于Java的Apache Tika框架寻找C/C++替代方案。具体来说,我正在一个框架下搜索文件meadatata和结构化文本提取。经过一些在线搜索和浏览,我拥有的最接近的东西是GNU libextractor和一组单独的文件过滤器,它们解析文档以提取文本数据(pdftoext、xls2csv.etc)

有人能推荐一个可以与Apache的Tika相媲美的好库吗?

感谢

KDE提供了一个名为KFileMetaData的库,它们在内部用于文件索引器。

它使用C++、Qt5,并支持大多数基本格式,如-ms-office-2007、odfs、pdfs、图像、视频、音频和电子书。

Tika有一个网络服务器模式,所以你总是可以用它启动Tika,然后从你的C++代码中向它发送请求?

或者,Tika具有CLI模式,因此您可以每次启动一个新的Tika进程并从管道中读取数据。

相关文章: