自动语音识别的工作原理
文章摘要:沃丰科技GaussMind基于自研原心引擎语音语义融合方案,打通业务领域数据,实现业务定制化的效果体验,自然场景识别率超过95%,个性化词汇识别超过97%,同时为语义模块提供丰富的识别结果输出,使语义识别率提升5个点以上。
过去几十年里,由于强大的人工智能和机器学习算法,ASR的发展速度迅猛。如今,大多ASR程序仍使用定向对话,但一些优化版本已开始利用自然语言处理技术,这是人工智能的子领域。
定向对话ASR
当您打电话给银行时,您可能体验过定向对话。如果是一些大型银行,您通常需要先与计算机互动,然后才联系到相应的人员。计算机可能会要求您简单地回答“是”或“否”来确认身份,或直接读出您的卡号。无论是哪一种情况,您都是通过直接对话式ASR来互动。这些ASR程序只限于简短的口头回答,因此词汇量有限。这些ASR程序适用于简单的客户互动,无法胜任复杂的沟通。
基于自然语言处理的ASR
如上所述,NLP是人工智能的一个子领域。NLP是指一种教会计算机理解人类语音或自然语言的方法。在下文中,我们使用了通俗易懂的语言,简要介绍了基于NLP语音识别程序的工作原理:
您向ASR程序说出一个指令,或提出一个问题。
该程序将您的语音转换为频谱图,这是机器可读的音频文件。
一个声学模型通过消除任何背景噪声(例如,狗叫声或静电)来清理您的音频文件。
算法将清理后的音频文件分解成音素。音素是声音的基本组成部分。例如,在英语中,“ch”和“t”是音素。
算法分析音素的序列,并使用统计概率来确定序列中的单词和句子。
NLP模型可以将语境应用到句子中,例如,确定您说的是“write”还是“right”。
一旦ASR程序理解了您说的内容,ASR程序就可以给予您合理的答复,并通过“文本-语音”转换技术来回复您。
虽然根据所使用的算法类型,上述流程会发生变化,但这并不妨碍我们理解ASR程序的工作原理。基于NLP的ASR没有限制,并且能够模拟真实对话,是迄今为止最先进的版本。例如,一个基于NLP的ASR系统的典型词库可以涵盖6万多个单词。评估ASR有两个维度,即单词错误率和响应速度;在理想条件下,ASR系统在理解人类语音方面可以达到接近99%的准确率。但是,大多数情况都不满足理想条件。
沃丰科技GaussMind基于自研原心引擎语音语义融合方案,打通业务领域数据,实现业务定制化的效果体验,自然场景识别率超过95%,个性化词汇识别超过97%,同时为语义模块提供丰富的识别结果输出,使语义识别率提升5个点以上。
文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/faq/17303