• 手机站
  • 微信
  • 搜索
    搜新闻
    您的位置:首页 > 商业

    澳鹏全新成品数据集助力MediaInterface快速部署新市场

    近期,澳鹏Appen与一家语音识别技术公司 -- MediaInterface达成合作,填补了其关键的数据空白,助力其实现快速部署新市场。

     

    语音识别技术在医疗领域的应用

     

    几年前,北京协和医院曾开展过一项关于文档录入工作量的调研。结果显示,我国超过40%的医生每天在计算机前进行文字录入的时间约为4小时,超过一半的医生每天进行文字录入的时间占工作总时间的40%。医生们普遍对于提高病历录入效率有着强烈需求。

     

    MediaInterface是一家颇具代表性的语音识别技术公司

    语音识别技术是一种相对成熟的解决方案。在许多欧美国家,语音识别技术在医疗领域的应用已超过10年。近年来,美国临床中语音识别录入的应用比例更是已近20%。MediaInterface便是其中一家颇具代表性的语音识别技术公司。

     

    更高效的医疗文档工作流程

     

    以德国为中心发散,MediaInterface已经为欧洲许多国家的医疗机构提供语音技术解决方案长达20余年。如同它的名字一样,其核心产品SpeaKING便是利用语音识别AI技术支持医疗文档的高效工具。目前,该产品已帮助600+家医院、700+家医疗机构、75,000+名用户实现速度更快、质量更高的医疗文档工作流程。

     

    凭借20多年来在欧洲多个国家的成功经验,MediaInterface希望将业务拓展至法国。然而,在业务拓展的过程中,他们遇到了法语数据资源不足的问题。

    从德国到法国

     

    尽管拥有20余年的行业经验,MediaInterface拥有的法语数据却并不多。要想拓展法国市场,MediaInterface必须建立全面的法语词汇基础。他们迫切需要具有高质量语音转录功能的专业法语“词典”。

     

    这本“词典”中,最大的数据空白是患者健康信息中经常引用的法语姓名和地点。但这些数据却难以获取:《欧洲通用数据保护条例》规定,可供收集的健康数据必须匿名处理,因此不包括人名和地名。MediaInterface必须寻求专业的外部资源,在遵守当地数据法规的前提下,帮助他们填补这些重要的数据空白。

     

    Appen法语数据资源及时助力MediaInterface拓展法国市场

    MediaInterface产品经理Ines Wendler表示:“我们当时正在向新市场拓展。尽管我们拥有先进的技术和软件,但数据资源的缺乏让我们的产品难以在当地推行。Appen的法语数据资源及时帮助了我们。”

     

    快速部署新市场

     

    MediaInterface与澳鹏Appen结缘于2015年的INTERSPEECH语音技术大会。此次法国市场的拓展则促成了双方的合作。目前,MediaInterface已通过澳鹏获取到约21,000个法国人名和14,000个法国地名,从而填补了最关键的数据空白。

     

    澳鹏数据集帮助MediaInterface开拓客户群并改善数据质量和客户体验

    澳鹏Appen通过种类丰富的OTS成品数据集助力MediaInterface针对某一集中需求的产品开发,从而拓展到全新的市场,并增强未来进入更多市场的可能性。目前,MediaInterface已在法国全面覆盖了医疗机构对基本口述语音识别的需求,为法国客户提供了较高的可信度。凭借数据资源的丰富,SpeaKING中的SmartLearning功能还可以让用户在其中添加自己的文本,以个性化现有词汇,从而通过向基础AI模型中添加数据的方式来提高语音识别的效果。

     

    就MediaInterface而言,澳鹏数据集为其配备了工具,在开拓客户群的同时,亦改善了数据质量和客户体验。不仅仅是MediaInterface,澳鹏Appen成品数据集已帮助许多企业以更高的产品准确性实现了快速的部署。

     

    澳鹏OTS成品数据集上新

     

    澳鹏本次更新的OTS成品数据集*,包括人体运动和婴儿啼哭声,以及市场需求量高但通常难以获得的语言(如阿拉伯语、克罗地亚语、希腊语、匈牙利语、泰语等)的脚本化语音和带有可识别文本的图像。全新数据集的加入使澳鹏Appen的OTS数据集总数达到250+个,包括11,000+小时的音频、25,000+张图像以及涵盖80+种语言及方言的870万+个单词。

     

    其中主要包括:

     

    他加禄语、阿拉伯语、高棉语、克罗地亚语、希腊语、匈牙利语、波兰语、西班牙语、土耳其语等多语种/方言数据库

     

    德语、法语、俄语等自由说语音数据库

     

    多姿态、多光线人像图片数据库

     

    简体中文、泰文、芬兰文等印刷文本图像OCR

     

    广告牌、外包装、标牌、杂志、菜单等,用于训练和更新计算机视觉OCR模型

     

    适用于游戏开发、健身应用等的像素级跟踪移动视频

     

    人体运动(中国)

     

    婴儿啼哭声(中国)等

     

    MediaInterface核心产品SpeaKING是利用语音识别AI技术支持医疗文档的高效工具

    所有澳鹏Appen数据集都采用完全透明的方式进行开发,确保数据安全且合规,从而助力高质量、负责任的AI部署。

     

    *成品数据集(也称OTS数据集)是一种高效、低成本的工具,可通过高质量的训练数据快速启动人工智能或机器学习项目。OTS数据集通常的交付时间在一周之内,而全新的数据集采集和标注项目根据其复杂程度,则通常需要8到12周的交付时间。与传统方法相比,OTS数据集缩短了实现价值的时间,并以较低的总成本提供了对高质量数据的使用权。

    (新媒体责编:syhz0808)

    声明:

    1、凡本网注明“人民交通杂志”/人民交通网,所有自采新闻(含图片),如需授权转载应在授权范围内使用,并注明来源。

    2、部分内容转自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

    3、如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行。电话:010-67683008

    时政 | 交通 | 交警 | 公路 | 铁路 | 民航 | 物流 | 水运 | 汽车 | 财经 | 舆情 | 邮局

    人民交通24小时值班手机:17801261553 商务合作:010-67683008转602 E-mail:zzs@rmjtzz.com

    Copyright 人民交通杂志 All Rights Reserved 版权所有 复制必究 百度统计 地址:北京市丰台区南三环东路6号A座四层

    增值电信业务经营许可证号:京B2-20201704 本刊法律顾问:北京京师(兰州)律师事务所 李大伟

    京公网安备 11010602130064号 京ICP备18014261号-2  广播电视节目制作经营许可证:(京)字第16597号