名片全能王:互联网+时代,OCR的应用具有无限可能
导读:名片全能王,最早将OCR技术应用到移动端的应用,由Google顶尖开发者合合信息研发,全球用户超过2亿。合合信息的企业产品身份证识别、银行卡识别等,也正在为全球数十万家企业提供服务。
OCR,开始受到企业应用的青睐
出于对业务模式创新,以及用户体验优化的追求,以前很多依赖特定仪器才能实现的技术和操作开始适配到移动端, OCR技术就是这股移动化浪潮中相当受到瞩目的技术之一。
OCR(Optical Character Recognition,光学字符识别),在1929年由德国科学家Tausheck最先提出来,是一种通过对文本的图像文件通过一系列分解处理,获取文字及版面信息的过程。
消费市场向移动端转移,致使未来超过60%的数据将来源于手机、平板等智能移动终端。摄像头已经成为数据采集最主要的入口,更多的非结构化数据需要转化为前后台可检索的数据,这个转化的过程就需要OCR技术大显身手。
2006年成立的合合信息,是最早将OCR技术应用到移动端的公司,其研发出的两款产品,用于名片扫描识别的名片全能王,和用于文档扫描识别的扫描全能王,全球用户已超过3亿。近几年,合合信息开始向企业市场发力,连续推出身份证识别,银行卡/信用卡识别,驾驶证识别,行驶证识别和企业三证识别等一系列产品。
这些OCR识别产品主要为需绑定银行卡的第三方支付,证券公司的自助开户业务,保险理赔业务,打车及租车行业车辆和驾驶员信息的录入,政府机关移动办公电子政务、智慧社区信息化,以及警务助手等,提供完善的解决方案。
技术难,但市场需求大,机会多
移动端对OCR技术的需求很大,然而能够提供OCR技术的厂商并不多。国际市场上有美国的Nuance,俄罗斯的ABBYY,国内市场则有合合信息、云脉、文通等不超过10家公司。
这是因为与传统OCR相比,移动端的OCR技术准入门槛更高。
与依赖平板扫描仪作为主要数据输入口的传统OCR不同,移动端OCR识别的数据采集主要依赖智能手机的摄像头。这种自然场景中的文字识别难度要远远大于扫描仪图像中的文字识别,不用说手写字体,即便是印刷体,也很难得到很高的识别率。它具有极大的多样性和明显的不确定性。
如图像中包含多种语言,多种语言含有又含多种不同大小不同字体的字母,这些字母的颜色、亮度、对比度、排列也不尽相同。而且由于人在拍摄时的随意性,图像中的字还可能产生变形,模糊等现象。此外,图像中还可能出现花草、街景、人群、建筑物等复杂背景,这些背景也会极大的增加误检率。
合合信息之所以能最早介入移动端市场,并一直在识别准确率上保持遥遥领先,关键在与它掌握的另一个核心技术。相信用过扫描全能王的人一定对这个技术印象深刻:自动找到图像边框,去除多余背景,矫正偏斜的文档。加上特别针对文字文档设计的五种增强模式,能让文档更加清晰。处理后的文档,能获得媲美扫描仪的效果,加之对识别算法的针对性优化,识别准确率自然也就高的多。
鼠标的发明人Douglas Engelbart认为,人工智能是将人类智能的进一步延伸,让机器去增加人的智能。OCR就是这样一项将人眼的能力延伸到机器上的人工智能技术。2004年,拥有300万像素摄像头的智能手机诞生,OCR将人眼的能力延伸到智能手机上。如今的互联网+时代,得入口者得天下,相信OCR的应用也将会充满无限机会,无限可能性。