近期结束的第五届世界人工智能大会上,合合信息将智能文字识别技术等等搬到了人工智能大会现场,引来了众多关注。据悉,合合信息拟在科创板上市,支撑其上市的核心技术莫过于智能文字识别技术,这也是人工智能技术的重要分支。
目前,合合信息的智能文字识别技术已应用在诸多领域,例如大家较为熟悉的表格识别。表格识别的需求广泛存在于个人生活、社会生产之中。高精确度的表格识别技术能够大幅节省文件处理时间,是合合信息智能文字识别技术中,图像处理和复杂场景文字识别技术的重要应用。
在16年的领域深耕中,合合信息智能文字识别技术覆盖了图片、PDF格式文档中多种类的表格识别需求,包括有线表,三线表,无线表等,并且支持合并单元格、多表格并存等复杂情况的识别。
基于分治思想,合合信息引入深度学习技术,将表格识别分为有线表识别和无线表识别两种方案。有线表识别中,合合信息利用语义分割、角点回归等技术方案还原有线表,在财报相关表格识别测试中,有线表识别单元格结构准确率高于98%。
无线表识别是表格识别中的难点,教科书上的部分统计表、药品配方表,都存在框线不完整甚至无框线的情况。无线表缺少表格线,直接套用有线表识别方案无法得到理想的表格结构。合合信息无线表识别采用序列模型、规则匹配等方案,通过自研模型直接预测表格的逻辑结构,再得到表格的物理结构,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。
现阶段,合合信息智能文字识别技术中的表格识别技术已被应用于以“扫描全能王”为代表的C端APP中,通过“文件转换excel”功能服务于大众生活和办公需求。B端领域中,表格识别技术已落地在保险、银行、证券等行业中,应用于合同、银行流水、物流单据识别等多个场景。
(新媒体责编:pl2022)
声明:
1、凡本网注明“人民交通杂志”/人民交通网,所有自采新闻(含图片),如需授权转载应在授权范围内使用,并注明来源。
2、部分内容转自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行。电话:010-67683008
人民交通24小时值班手机:17801261553 商务合作:010-67683008转602 E-mail:zzs@rmjtzz.com
Copyright 人民交通杂志 All Rights Reserved 版权所有 复制必究 百度统计 地址:北京市丰台区南三环东路6号A座四层
增值电信业务经营许可证号:京B2-20201704 本刊法律顾问:北京京师(兰州)律师事务所 李大伟
京公网安备 11010602130064号 京ICP备18014261号-2 广播电视节目制作经营许可证:(京)字第16597号