从ASR技术层面上来说,智能客服不智能的原因在哪里?
文章摘要:“我要找人工客服!”“对不起,小智听不懂你的问题,您是想要咨询订单进度吗?”“我要找人工客服!!”“对不起,小智听不懂你的问题,您是想要咨询订单进度吗?”“。。我买的衣服没剪吊牌,但是不小心...
“我要找人工客服!”
“对不起,小智听不懂你的问题,您是想要咨询订单进度吗?”
“我要找人工客服!!”
“对不起,小智听不懂你的问题,您是想要咨询订单进度吗?”
“。。我买的衣服没剪吊牌,但是不小心划了一下,没破,有个印子,还能退货吗?”
“关于退货问题,您只需要在订单也点击退货选项即可,我家支持7天无理由退货哦~”
“那衣服被划了一道,还能退吗?”
“关于退货问题,您只需要在订单也点击退货选项即可,我家支持7天无理由退货哦~”
“。。你不是小智,你是个小智障吧”
“对不起,小智听不懂你的问题,您是想要咨询订单进度吗?”
这个场景是不是似曾相识?是不是你说啥,智能客服都听不懂,回答的驴唇不对马嘴。然后想找人工客服,死活找不到入口,最后浪费半小时,除了把自己气的半死外,啥问题都没解决。
不仅这一个问题让人抓狂,智能客服想找到对应问题解答区间同样十分费劲,因为这需要客户一直按照提示音,点点点。这浪费了大量时间,等找到问题解决办法了,黄花菜都凉了。到底是人性的毁灭还是道德的沦丧,让这样的事情频频发生在我们身上,智能客服为啥就变成了智障客服呢?问题到底出在哪?
要想知道这个原因,首先我们需要搞清楚人工智能客服的商业模式。目前市场上主要的商业模式分为两种:一种是定制化模式,智能客服供应商根据企业自身业务需求进行灵活、定制化开发,可以更加精准地解决用户在咨询过程的问题。当然价格也相应更高,一套定制化智能客服系统的价格在几十万到上百万之间,可以买的起的企业自然都是资金流充足的大型企业;第二种是智能客服供应商在云端给企业开通智能客服账户,公用一套通用模版,定制化程度低,一个账户的年费用在千元至万元不等。像一些中小型企业受限于资金问题,会选择这个模式,这也就导致了识别不精确,步骤繁琐等问题频出。
智能客服核心应用技术之ASR
但“智能客服不智能”这个问题不能光归咎于企业没钱买不起贵系统上,其中也存在一些技术层面上的问题,比如在ASR( Automatic Speech Recognition),即语音识别技术上存在的问题。
语音识别的一般流程为根据输入的语音,提取语音特征,通过解码器融合训练好的语言模型和声学模型,得到最终的词序列结果。字典的作用根据声学模型识别出来的音素(汉语中一般为声韵母),来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。其中各类模型具体作用分别是:
1、 声学模型:描述在给定词的情况下,对应声学信号的概率。
2、语言模型:描述语言序列关系的模型,关注序列产生的概率。
3、解码器:根据声学模型和语言模型,搜索出最有可能的词序列,其本质是一个动态规划算法。
在语音识别过程中,总会遇到各种问题,在你咨询智能客服,其回答“抱歉,我听不懂您在说什么”或者“不好意思,请您再重复一遍”时,就表示对话失败,ASR没有成功识别。
而导致ASR识别失败的原因大多出于以下三点:
1、噪音问题
在实际应用中,用户在与语音机器人沟通的过程中,所处的空间是具备多样性的。比如顾客在地铁上、超市中等户外场景咨询时,周边人声噪音就会对语音识别造成影响,又比如外卖员、快递员在送货的过程中,风声、喇叭声、行驶声等,一样会对语音识别造成影响。
2、口音问题
口音问题则包含方言以及口音不准的问题,正所谓“十里不同音,百里不同俗”。我国幅员辽阔,拥有五大语系,共有80种以上细分语言。各方言区内,又分布着若干次方言和许多种土语,语言隔阂难以解除,口音也很难纠正。语言识别无疑是十分困难的事情。
3、实体识别
通俗来说,语音识别模型就是一个概率模型,当语音传入语音识别模型中,输出为日常生活中常用到的词语与句子的概率是高于其他稀疏词的。而人名、地名、机构名、专有名词、药名等均属于稀疏词,企业不常用到,所以在对特定词语的识别上就会十分困难。
目前应用的前沿技术是什么?(以沃丰科技相关技术为例)
1、垂直领域数据训练
相较于通用数据,沃丰科技专注于客服领域,已经为超过60家世界500强、200家中国500强客户提供服务,沉淀了大量可用于模型训练的客服数据,能够支撑沃丰科技对模型进行深度的优化。
2、端到端技术方案
与BAT企业相比,沃丰科技率先完成了从pipeline到端到端到技术改进,能将输入语音直接进行转化,而传统pipeline串联过程中会有信息的遗失,信息转化,转化链路长。端到端的技术则转化链路短、速度快,目前沃丰科技在这一过程中也实现了模型深度优化。
3、语言与声学模型结合
热词优化方面,行业内对词语进行少量优化的情况下,都会用热词的方案,比如优化姓名、地址、药名等无实际意义且不常见的词,但这种词用传统的语言模型的方式或者热词方式是无法解决的。而沃丰科技通过语言模型与声学模型结合的方式解决了这种问题,大幅提升了准确率。
通过上述方式,沃丰科技GaussMind语音识别技术达到了行业中较好的水平,识别率可达95%,同时能够实现语音实时转写,边接收语音,边返回文字;识别效果优化,个性化准确率提升。
客户实践案例
96123 是北京地铁服务热线,于2021年3月31日上线试运行,业务范围覆盖北京城市轨道交通全路网范围内的运营、票务和站内服务等相关信息咨询等服务,如乘车线路,票价查询等日常乘坐轨道交通伴随的问题。
痛点问题
1.日常咨询量较大,人工处理工单量大、工单流转效率有待提升
2.环境噪音、背景噪音及高地铁站名称相似度,数字与汉字并存,给语音识别带来挑战
3.北京作为首都,人员范围广,五湖四海的人群口音给语音识别带来难度
4.用户表达多样性高,路线信息语义识别困难
解决方案
全面定制化:沃丰科技基于自研的GaussMind“原心引擎”进行全面定制化操作,快速、高效地打造96123智能语音机器人。
ASR(自动语音识别):“听清”用户说的“是什么”,准确识别来自五湖四海的口音
NLP(自然语言处理):“听懂”用户说的是“什么意思”,准确理解出发地、目的地
对接业务系统:为用户快速提供查询结果信息,让北京地铁出行查询更加智能、便捷。
更多关于ASR技术资讯以及相关案例可点击下图咨询~
文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/report/23322