1、Tesseract OCR不仅可以处理简单的文本,还可以识别多种语言和复杂的文字排版,包括斜体文字和印刷体文字。
2、为了提高识别准确性,Tesseract OCR还提供了一些优化选项;例如是否识别斜体文字、忽略特定字符或识别特定字符等;
3、用户可以根据需要通过编辑词典或添加自己的训练数据来进一步定制OCR引擎以适应特定的需求。
tesseract-ocr使用教程:
下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录。
从开始菜单(或者安装目录)的Tesseract-OCR文件夹中,点击Console,启动命令行窗口。键入命令tesseract,会显示相关提示信息,可使用命令“tesseract --help-extra”显示更详细的帮助信息。
基本语法命令
进行文字识别的基本命令语法如下:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
识别图片中的英文字母和数字
将图片保存为文件“D:\temp\abcdef.png”,使用命令
tesseract d:\temp\abcdef.png stdout进行识别
不能识别图片中的简体中文
上述软件安装过程中,并未安装简体中文的训练数据集。
已有的训练数据集可使用命令“tesseract --list-langs”查看,也可直接在目录“D:\Programs\Tesseract-OCR\tessdata”中查看扩展名为traineddata的文件。
179MB/2024-09-09
直接下载
102MB/2024-10-16
直接下载
40.7MB/2024-10-18
直接下载
232MB/2024-10-21
直接下载
4.9MB/2024-10-28
直接下载
868.57KB/2024-09-20
直接下载