自动语音识别的工作原理

2022/03/07作者：duyong 1061文章阅读时间：3分钟

文章摘要：沃丰科技GaussMind基于自研原心引擎语音语义融合方案，打通业务领域数据，实现业务定制化的效果体验，自然场景识别率超过95%，个性化词汇识别超过97%，同时为语义模块提供丰富的识别结果输出,使语义识别率提升5个点以上。

AI智能+RPA营销自动化SCRM系统点击免费试用 >>

私域社群优化手册免费领取点击免费领取>>

私域营销自动化精准营销解决方案点击免费试用 >>

过去几十年里，由于强大的人工智能和机器学习算法，ASR的发展速度迅猛。如今，大多ASR程序仍使用定向对话，但一些优化版本已开始利用自然语言处理技术，这是人工智能的子领域。

定向对话ASR

当您打电话给银行时，您可能体验过定向对话。如果是一些大型银行，您通常需要先与计算机互动，然后才联系到相应的人员。计算机可能会要求您简单地回答“是”或“否”来确认身份，或直接读出您的卡号。无论是哪一种情况，您都是通过直接对话式ASR来互动。这些ASR程序只限于简短的口头回答，因此词汇量有限。这些ASR程序适用于简单的客户互动，无法胜任复杂的沟通。

基于自然语言处理的ASR

如上所述，NLP是人工智能的一个子领域。NLP是指一种教会计算机理解人类语音或自然语言的方法。在下文中，我们使用了通俗易懂的语言，简要介绍了基于NLP语音识别程序的工作原理：

您向ASR程序说出一个指令，或提出一个问题。

该程序将您的语音转换为频谱图，这是机器可读的音频文件。

一个声学模型通过消除任何背景噪声（例如，狗叫声或静电）来清理您的音频文件。

算法将清理后的音频文件分解成音素。音素是声音的基本组成部分。例如，在英语中，“ch”和“t”是音素。

算法分析音素的序列，并使用统计概率来确定序列中的单词和句子。

NLP模型可以将语境应用到句子中，例如，确定您说的是“write”还是“right”。

一旦ASR程序理解了您说的内容，ASR程序就可以给予您合理的答复，并通过“文本-语音”转换技术来回复您。

虽然根据所使用的算法类型，上述流程会发生变化，但这并不妨碍我们理解ASR程序的工作原理。基于NLP的ASR没有限制，并且能够模拟真实对话，是迄今为止最先进的版本。例如，一个基于NLP的ASR系统的典型词库可以涵盖6万多个单词。评估ASR有两个维度，即单词错误率和响应速度；在理想条件下，ASR系统在理解人类语音方面可以达到接近99%的准确率。但是，大多数情况都不满足理想条件。

沃丰科技GaussMind基于自研原心引擎语音语义融合方案，打通业务领域数据，实现业务定制化的效果体验，自然场景识别率超过95%，个性化词汇识别超过97%，同时为语义模块提供丰富的识别结果输出,使语义识别率提升5个点以上。

文章为沃丰科技原创，转载需注明来源：https://www.udesk.cn/ucm/faq/17303

ASR 语音识别

上一篇: 自动语音识别的应用是什么下一篇: 智能客服机器人提高工作效率

自动语音识别的工作原理

自动语音识别的工作原理的相关推荐

最新文章推荐

手机登录下载