首页 > 技术

OCR表格识别难?司普智能数采给出新思路

2024-02-05 11:09:05      西盟科技资讯   


  沾OCR的光,现在通用图片转文字,轻松就能做到了。而且准确率高了很多,不用再担心错别字多,没法用。

  但表格类资料的识别,依然存在很多问题:

  比如文字识别基本OK,但格式全没了,原有的逻辑顺序也被打乱。重新调整数据结构,几乎相当于推倒重来。

  遇上表格形式复杂、有背景干扰或图片质量不佳,识别效果都会大打折扣,更别说保留原来的排版和格式了。

  另外,常规的表格识别还会受到格式类型、语种、字体、术语等多方面的影响。

  以上案例仅供参考

  以上导致OCR表格识别在技术实现上面临诸多门槛,很多涉及表格识别的业务场景,也因此发展受限。

  不过眼下,这种情况正在慢慢改变…

  司普科技推新型OCR智能数据采集解决方案

  2022年,基于以往的OCR表格识别痛点,人工智能服务商司普科技推出了新一代OCR智能数采平台。

  作为现阶段为数不多能快速、有效实现OCR表格识别的厂商之一,司普正为金融、医疗等行业实现智能表格识别带去便利。

  和传统的信息识别工具相比,司普智能数采平台包含OCR识别、QA质检、模型自学习三大模块。其中,OCR识别能完美兼容各类文档和表格,尤其是表格信息的识别。

  除了保障高精准度的文本信息识别,司普智能OCR数采平台还能有效识别表格结构、表格类型,实现表格数据与结构信息的独立抽取和解析,以确保识别结果不受单据格式和形态干扰。

  凭借这重优势,目前司普OCR智能数采已经覆盖报告证明、费用清单、合同、票据、医保结算单等近20种表格影像数据形态。

  OCR+QA质检+模型自学习,升级数据要素管理

  因为大多数情况下,待识别的表格资料可能存在背景干扰、模糊褶皱、抖动反光、阴影噪点等情况,为了进一步提高识别精度,司普智能数采平台增设了QA质检模块,以应对各种信息识别和抽取的阻碍。

  比如QA质检环节,司普OCR表格识别能很好地处理角度旋转、裁剪、印章留痕、叠加、错位错行、低分辨率、字迹模糊、褶皱、弯曲透视、光照不均、抖动等各种常见的识别干扰,并通过增强优化和局面处理,进一步提升表格信息识别的准确率。

  模型自学习是司普智能数采平台的另一大核心模块,它不仅能辅助完成信息识别、降噪和结构化管理,还能依托行业大模型,将各种数据集经脱敏处理和预训练,打造成行业知识图谱,作用于信息检索、培训、营销、客服、管理决策等场景。

  三大模块紧密合作,为司普科技满足各类表格的识别需求打下了坚实的基础。

  只是目前很多OCR服务商未必能做到这般贯穿业务全流程,而且各家的OCR识别精度和效度也是参差不齐。

  值得一提的是:除了技术实现,做好OCR表格识别很重要的一点,还在于行业积累。

  以医疗行业为例,因为医学术语众多,经常还存在缩写、别名等情况,加上很多医疗机构间的标准又未必一致,给医学类表格的OCR识别带来了不少挑战。

  正因为如此,主流的OCR表格识别解决方案往往依托海量医疗知识库而展开。

  比如司普科技为了满足各类医疗表格的OCR识别需求,前期积累了超过3000万条知识数据,收录了全国各地的医保目录、医疗机构目录、疾病、手术行业标准等,而且实现了国家-省-市医保库三级覆盖,才得以保证较高的识别准确率。

  综上来看,目前OCR表格识别市场仍属蓝海,但如果做不到保持较高识别水平的同时,拓宽适用场景,并做好知识储备,OCR表格识别的效果也将深受影响。

相关阅读