沃丰科技AI技术干货 | ASR技术聚焦垂直场景 助力业务增长
作者:人工智能 1252文章阅读时间:4分钟
文章摘要:目前,ASR技术已经被越来越多的行业应用,并深入到了各个维度的使用场景。最初ASR的应用领域是广泛而通用的,但随着行业发展,各厂商逐渐把目光聚焦在了垂直领域,以沃丰科技为代表的人工智能公司,开始挖掘更聚焦的ASR技术应用形态,将通用语音识别转化为垂直场景的语音识别,从而大幅度提升识别准确率和行业适配性。
ASR(Automatic Speech Recognition)即自动语音识别技术,其目标是将人类的语音中的词汇内容转换为计算机可读的输入数据。2010年,机器学习算法和计算机性能的进步带来了更有效的训练深层神经网络的方法,2020年以后,随着一些端到端技术的更新,技术优势被逐渐完善。目前,ASR技术已经被越来越多的行业应用,并深入到了各个维度的使用场景。最初ASR的应用领域是广泛而通用的,但随着行业发展,各厂商逐渐把目光聚焦在了垂直领域。因为在不知道上下文背景,没有具体应用领域的情况下,语音识别会变得困难,无法保证准确率。因此,以沃丰科技为代表的人工智能公司,开始挖掘更聚焦的ASR技术应用形态,将通用语音识别转化为垂直场景的语音识别,从而大幅度提升识别准确率和行业适配性。以家电行业客户奥克斯为例,沃丰科技AI场景落地专家GaussMind为其打造的语音机器人解决方案,就是ASR在垂直场景下实现地址优化的典型案例。奥克斯的服务场景是空调售后的上门维修和安装,其中涉及大量的地址识别,大量的地名是专有名词,不具有物理意义,并且存在多音字、同音字等现象,这就导致ASR通用模型的执行效果不理想,而基于垂直行业做的专有模型就能够实现精准识别、有的放矢。奥克斯语音机器人解决方案中的模型训练数据来源有两个,第一个是奥克斯历史沉淀的留存信息,如用户调查填写,另一个是系统根据官网订单自动抓取的信息。基于这些数据,沃丰科技在传统通用模型的基础上,增加了纯地址模型。常规信息通过通用模型识别,地址信息在地址模型里做识别,为地址这个“老大难”实行小范围、针对性的识别,最终大大提升了识别的整体准确率。“精”准执行
实时听写与录音文件转写
在完成语音的准确识别后,系统要根据识别结果进行下一步的转写。ASR技术的转写通常分实时听写和录音文件转写,沃丰科技根据这两个场景的特性,分别应用了语音机器人和智能质检产品。在人与人日常的对话中,对话间隔往往在1秒以内,才能够保持交流畅通,人机对话同理。如果语音识别时间过久,会严重影响用户的交互体验。沃丰科技ASR实时听写能够边解码边输出结果,将语音机器人交互延时压缩到800毫秒(0.8秒)左右,确保机器人与客户对话高效、顺利地进行。然而,控制识别速度,意味着转写效果会有一定折扣。所以在实效性要求不高如智能质检场景下,业务反馈时间可适度延长。此外,沃丰科技采用更大的AI模型,辅以注释以及二次解码等策略,帮助企业生成准确的质检报告,并按时回传。“巧”妙攻克难点
优化知识效果
自动语音识别技术的难点,主要在于输入语音不标准。例如各地人群的口音不同、不同人普通话水平参差不齐,抑或受噪音影响,如外卖小哥边骑车边打电话、嘈杂的室外环境等等。针对这些问题,沃丰科技依托客户服务领域多年的行业积累,根据大量真实的交互数据,以场景落地为前提,专门为企业客户做行业垂直模型的开发,最大化地提升语音识别技术的应用效果。除此之外,生僻词也是一大技术难点。这主要体现在人名、地名、药品名等,这类词出现频率低,使用场景也较为稀疏,通过传统的语言模型和文本方式难以解决。针对这一情况,沃丰科技采用了语言模型与声学模型结合的方式,大大提升了识别准确率。沃丰科技长期专注于AI技术研发与场景落地,特别是在ASR应用方面有深厚积累。在越来越多的行业探索、案例实践中,沃丰科技的ASR技术已逐渐成熟,并形成可落地、有迹可循的行业及标杆案例经验,将ASR技术及产品广泛应用到各行业的客户实践中。未来,沃丰科技将基于行业成功案例,进行更多的ASR、NLP等AI技术应用的拓展延伸,为企业的业务优化、业绩增长创造出更多的可能性。
》》点击免费试用语音识别系统,优势一试便知
文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/report/26863