Tesseract OCR的置信值

Confidence value of Tesseract OCR

本文关键字:OCR Tesseract      更新时间:2023-10-16

我有一些有关Tesseract OCR置信值的问题,可以通过在C API中调用AllWordConfidences()函数来获得。

  1. 什么是置信值(由Tesseract API返回(和 Tesseract如何计算该值?(例如,基于什么因素(?

  2. 我是否有可能更改Tesseract的准确性水平?

有人可以帮我解决这些问题吗?谢谢。

我在其他OCR软件(特别是在ANPR软件中(中使用了类似的指标。如果我没记错的话,总体上有两个置信因素。一个是0-> 100%的置信因子,另一个是0-> x值,用作各种级联置信因子的聚合。
该值是任意的,因此我建议使用0-> 100%的值。另请注意,每个字符都应具有置信因子。

这些指标是通过评估清晰的轮廓线/边缘,字符中检测到的形状与预期形状的近距离以及决定选择一个字符与另一个角色的距离的近距离计算得出的。即OCR在" P"answers" B"之间选择比" Q"answers" O"更轻松。

"改善"这些指标的唯一方法是训练检测器!因此,准备拥有大量有效数据。您还需要使用Tesseract培训工具耐心 - 我发现它们是75%的噩梦。

祝你好运!