OCR影像识别编程频道|福州电脑网

2024年5月27日发(作者：)

1. 什么是OCR？

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描

仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后

用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然

后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助

信息提高识别正确率，是OCR最重要的课题，ICR（Intelligent Character

Recognition）的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：

拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行

性等。

2. OCR的发展历史：

早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以

文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有

方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以

数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文

字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的

作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。

中国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、

英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到

1986年汉字识别的研究进入一个实质性的阶段，不少研究单位相继推出了

中文OCR产品.

3. 工作流程：

一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内

的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机

文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，

当然也可节省因键盘输入的人力与时间。

从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、

比对识别、最后经人工校正将认错的文字更正，将结果输出

4. 影像输入：

欲经过OCR处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何

摄影器材，将影像转入计算机。科技的进步，扫描仪等的输入装置已制作

的愈来愈精致，轻薄短小、品质也高，对OCR有相当大的帮助，扫描仪的

分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

影像前处理：影像前处理是OCR系统中，须解决问题最多的一个模块，

从得到一个不是黑就是白的二值化影像，或灰阶、彩色的影像，到独立出

一个个的文字影像的过程，都属于影像前处理。包含了影像正规化、去除

噪声、影像矫正等的影像处理，及图文分析、文字行与字分离的文件前处

理。在影像处理方面，在学理及技术方面都已达成熟阶段，因此在市面上

或网站上有不少可用的链接库；在文件前处理方面，则凭各家本领了；影

像须先将图片、表格及文字区域分离出来，甚至可将文章的编排方向、文

章的提纲及内容主体区分开，而文字的大小及文字的字体亦可如原始文件

一样的判断出来。

文字特征抽取：单以识别率而言，特征抽取可说是 OCR的核心，用什

么特征、怎么抽取，直接影响识别的好坏，也所以在OCR研究初期，特征

抽取的研究报告特别的多。而特征可说是识别的筹码，简易的区分可分为

两类：一为统计的特征，如文字区域内的黑/白点数比，当文字区分成好几

个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量，

在比对时，基本的数学理论就足以应付了。而另一类特征为结构的特征，

如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔

划段为特征，配合特殊的比对方法，进行比对，市面上的线上手写输入软

件的识别方法多以此种结构的方法为主。

对比数据库：当输入文字算完特征后，不管是用统计或结构的特征，

都须有一比对数据库或特征数据库来进行比对，数据库的内容应包含所有

欲识别的字集文字，根据与输入文字一样的特征抽取方法所得的特征群组。

5. 对比识别：

这是可充分发挥数学运算理论的一个模块，根据不同的特征特性，选用不

同的数学距离函数，较有名的比对方法有，欧式空间的比对方法、松弛比

对法（Relaxation）、动态程序比对法（Dynamic Programming，DP），以

及类神经网络的数据库建立及比对、HMM（Hidden Markov Model）…等著

名的方法，为了使识别的结果更稳定，也有所谓的专家系统（Experts

System）被提出，利用各种特征比对方法的相异互补性，使识别出的结果，

其信心度特别的高。

字词后处理：由于OCR的识别率并无法达到百分之百，或想加强比对

的正确性及信心值，一些除错或甚至帮忙更正的功能，也成为OCR系统中

必要的一个模块。字词后处理就是一例，利用比对后的识别文字与其可能

的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，做更正的

功能。

字词数据库：为字词后处理所建立的词库。

6. 人工校正：

OCR最后的关卡，在此之前，使用者可能只是拿支鼠标，跟着软件设计的节奏操作

或仅是观看，而在此有可能须特别花使用者的精神及时间，去更正甚至找寻可能是

OCR出错的地方。一个好的OCR软件，除了有一个稳定的影像处理及识别核心，以

降低错误率外，人工校正的操作流程及其功能，亦影响OCR的处理效率，因此，文

字影像与识别文字的对照，及其屏幕信息摆放的位置、还有每一识别文字的候选字功

能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词，都是为使用者设

OCR影像识别

发布评论取消回复

最近发表

相关推荐

标签列表

OCR影像识别

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复