python tesseract在没有OCR的情况下获得行数
python tesseract get number of lines without OCR
我正在尝试在不进行OCR的情况下确定文本的行数。我想绕过 OCR 并在用户提供了太多文本行要处理的情况下给用户一个错误(这将花费太长时间,而且这不是应该给出的输入类型)。理想情况下,我希望帮助在 python 中做到这一点,但如果有任何 c++ 示例可以做到这一点,我也许能够调整它们。
以下是我可以使用的 API 函数: http://zdenop.github.io/tesseract-doc/group___advanced_a_p_i.html
我可以使用这些函数,但我不知道在 python 中处理 BLOCK_LIST、ETEXT_DESC 或 Boxa 对象的方法,除了将它们从一个 API 调用提供给另一个 API 调用。
任何帮助将不胜感激!
这可能不是最好的方法,但它只需几秒钟即可工作,并允许我知道何时应该取消 OCR,因为根据找到的符号数量,执行时间比预期的要长,假设我将 OCR 操作放在自己的线程中可以杀死。您还可以找到行数 (RIL_TEXTLINE),但如果有多个列,则会因此获得更多行数。
import tesseract
import cv2.cv as cv
api = tesseract.TessBaseAPI()
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO_OSD)
# Load image
img_data = cv2.imread('file.jpg')
image = cv.CreateImageHeader((width1,height1), cv.IPL_DEPTH_8U, channel1)
cv.SetData(image, img_data.tostring(),img_data.dtype.itemsize * channel1 * (width1))
tesseract.SetCvImage(image,api)
# Check number of chars
chars_iterator = api.AnalyseLayout()
num_chars = 1
while chars_iterator.Next(tesseract.RIL_SYMBOL) is True: num_chars += 1
# Break of there are too many chars
if num_chars > 1000:
print "Too many chars!"
break
# Reset api to delete previous layout iterator
api.Clear()
tesseract.SetCvImage(image,api)
# Do real OCR, and put this in its own thread if you want to kill it when it takes too long
result_xml = api.GetHOCRText(1)
print api.GetUTF8Text()
相关文章:
- 在没有太多条件句的情况下,我如何避免被零除
- 为什么在没有显式默认构造函数的情况下,将另一个结构封装在联合中作为成员的结构不能编译
- 在未初始化映射的情况下,将值插入到映射的映射中
- 是默认情况下分配给char数组常量的值
- 为什么我不能在不创建字符串变量的情况下使用函数的字符串输出
- 如何在不产生任何垃圾的情况下获得C中的像素
- 在已经使用Git的情况下减少编译时间
- 为什么在Windows上的VS 2019和Clang 9中"size_t"在没有标题的情况下工作
- 如何在没有信号的情况下从C++执行QML插槽
- 如何在不知道向量大小的情况下输入向量内部的向量?
- 为什么在某些情况下不写入此文件?
- 为什么Mat类的两个对象可以在不重载运算符+的情况下添加
- 在没有Xcode的情况下在Mac捆绑包中嵌入框架
- UE4-如何在给定4个屏幕坐标的情况下缩放纹理或材质
- 为什么需要复制构造函数,在哪些情况下它们非常有用
- 在C++中如何在没有pow的情况下进行基础计算
- 松弛原子与无同步情况下的记忆连贯性
- 在 Windows 上,是否可以让 dll 在不使用 PATH 环境变量的情况下在另一个文件夹中查找依赖项?
- 我是c ++的新手,你能解释一下在这种情况下的指针吗
- python tesseract在没有OCR的情况下获得行数