Tessact OCR是否使用神经网络作为默认的训练机制

Does Tessaract OCR uses neural networks as their default training mechanism

本文关键字:默认 机制 是否 OCR 神经网络 Tessact      更新时间:2023-10-16
抱歉,这可能是个愚蠢的问题。但我对机器学习和Tessact OCR还相当陌生。我听说Tessact OCR可以进行培训。

我需要知道的是,Tessact OCR是使用神经网络作为默认的训练机制,还是我们必须明确编程才能使用神经网络?。

如果我对这个"训练"的概念想错了,我很抱歉。但我需要知道的是,Tessact是否已经使用了NN,或者如果没有,我如何使用带有Tessact OCR的NN来提高识别精度?。

如果有人能给我推荐一些好的资源/推荐/尝试和开始的方式,那也将是一个很大的帮助。

我目前所知道的基本机器学习监督训练概念,以及在Tessact OCR中执行基本图像OCR操作。

Tessact默认使用自适应分类器。请阅读以下内容:

https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf

似乎有一个名为"立方体模式"的选项,它将切换到使用NN作为学习系统,而不是自适应分类器(https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube)。有关自适应分类器的更多信息:

http://www.cs.indiana.edu/~rawlins/website/adaptivity/information-helper.html

此外,与之密切相关的还有一个学习分类器系统:

http://en.wikipedia.org/wiki/Learning_classifier_system

此外,您对"培训"的术语非常接近。训练是指你如何教模式识别系统或学习系统对某些输入集应该做出什么反应。然后,当遇到未知数据时,它使用相似性来对新数据进行分类。在我看来,机器学习是现存最酷的领域之一(可能有偏见,但不管怎样!)继续学习!你是元学习者:学习如何教机器学习!酷东西!

是的,从tesseract 4.0开始,它提供了一个新的基于lstm的ocr引擎:https://tesseract-ocr.github.io/tessdoc/NeuralNetsInTesseract4.00