精华区 [关闭][返回]

当前位置:网易精华区>>讨论区精华>>电脑技术>>● 中文处理>>☆汉字输入>>☆OCR技术>>OCR视点

主题:OCR视点
发信人: qiang()
整理人: qiang(1999-08-29 20:04:38), 站内信件
发信人: Eidola (Life's Beautiful), 信区: Chinese
标  题: OCR视点
发信站: BBS 水木清华站 (Tue Aug 24 22:57:10 1999)

高速 准确 实用

国内外OCR发展现状及趋势

  自60年代初期出现第一代OCR产品,经过30多年的发展,OCR技术已取得了长足的进步
,商业化的OCR产品已由早期的只能识别指定印刷体的数字、英文字母和部分符号,发展
成可自动进行版面分析、表格识别,实现混合文种,多字体、多字号、横竖混排识别的强
大的计算机快速信息录入工具。特别是近几年,手写体OCR技术也取得了令人瞩目的进
展,相继问世了在线手写体OCR系统和专用手写体OCR系统。人们对OCR产品的功
能要求也从原来的单纯注重识别率,提高到对OCR系统的识别速度,用户界面的友好性
,产品的稳定性,易用性及可靠性等方面。

  对OCR技术的研究通常分为印刷体OCR和手写体OCR两种。

  目前印刷体OCR技术已基本达到实用化程度,即使对印刷质量中等偏低的字体的识
别率也达到95%以上。特别是我国的汉字OCR技术,经过十几年的努力,克服了起步时
间晚、汉字字符集大等困难,单字识别速度(指从特征提取到识别结果输出在单位时是内
完成的所完成的字数)在386机上达到单体字10-20字每秒,多体字5-10字每秒,结合专
用硬件,识别速度达30-70字每秒。

  印刷体OCR技术的日趋成熟使得通用
化OCR产品被广泛地应用在新闻、印刷、出版、图书馆等各行业。所谓通用化OCR系
统,是指分析并识别通用印刷体文本,如技术报告、报纸、杂志等。通用化OCR系统通
常提供版面操作和文字识别两大功能:版面操作包括版面图像倾斜校正、版面手工或自动
分析,以正确切分出文本块、图像块、图形块、表格和分隔线等,并标注出文本识别序列
;文字识别即对文本序列块进行识别,将文字图像转换成文字机内码表示。我国目前使用
的通用化OCR软件主要有清华文通、北信BI、中自ICR、沈阳自动化所SY、北京
曙光公司的NI等。

  尽管文字识别率较高,但对于印刷质量较低、图像倾斜等干扰,识别正确率有明显下
降。同时,目前的版面分析技术,对于版面设计较为简单的文本可以达到很高的切分水平
,但对于版面设计复杂,或印刷质量不高,如图像倾斜或污点多的文本的分析与切分实用
化程度仍有待提高。

  与通用化OCR系统相比,专用化OCR系统则多采用的是手写体OCR技术。由于
书写人的书写风格迥异,自由手写体OCR相当艰巨,手写印刷体的OCR技术也仅限定
在专用化表格数据的识别。具有较高识别率的手写体OCR都是通过对书写字符集或词集
、书写字体等提出足够的限制而获得的。如有调查表明,以100个左右美国城市名称作为
词集,手写OCR识别率可达95%。目前我国对手写印刷汉字的OCR技术仍处于研究阶
段,距实用化还有较大距离。

段,距实用化还有较大距离。

量表格信息的人工录入已成为计算机信息处理的瓶颈。手写体表格数据自动录入系统通常
采用专用硬件设备,结合OCR软件包,将人们从繁重的手工录入劳动中解脱出来,极大
地提高了工作效率。
  手写体表格数据自动录入系统的典型代表就是日本东芝公司的OCR-V1000系列。
这种系统专门为识别表格数据而设计,可识别的文字集包括数字、英文字、符号、汉字等
,识别速度达30页/分(A4手写体300字),290页/分(A8印刷体10字),具有广泛的应
用价值,特别适用于税务、工商、海关、保险、银行等需要处理大量表格的行业。

  手写体OCR技术的另一广泛应用领域是联机手写体识别,即人一面写,机器一面认
,是一种实时识别方式。和脱机识别相比,其相对简单性在于:联机时,机器接收的是文
字拆开的笔划,而不是整字,机器通过对笔划的识别,以达到对字的识别。

  随着计算机技术的飞速发展,为了适应计算机高速信息处理,作为计算机智能接口重
要组成部分之一的OCR技术已经受到越来越多的人的重视。实用化的OCR必将在人们
的生活中发挥越来越重要的作用。


--

          True love never runs smooth.


※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: Software-Engine]

--
※ 来源:.网易 BBS bbs.netease.com.[FROM: bbs.huizhou.gd.cn]

[关闭][返回]