ASR语音识别技术是怎么工作？

2022/03/16作者：duyong 1622文章阅读时间：1分钟

文章摘要：机器要与人实现对话，那就需要实现三步：对应的便是“耳”、“脑”、“口”的工作，机器要听懂人类说话，就离不开语音识别技术（ASR）。语音识别技术拆分下来，主要可分为“输入——编码——解码——输出”4个流程。...

机器要与人实现对话，那就需要实现三步：

对应的便是“耳”、“脑”、“口”的工作，机器要听懂人类说话，就离不开语音识别技术（ASR）。

语音识别技术拆分下来，主要可分为“输入——编码——解码——输出 ”4个流程。

那语音识别是怎么工作的呢？

首先声音的本身是一种波，就像我们常常用一段段波形来表示音频一样。

接下来按步骤：

给音频进行信号处理后，便要按帧（毫秒级）拆分，并对拆分出的小段波形按照人耳特征变成多维向量信息

将这些帧信息识别成状态（可以理解为中间过程，一种比音素还要小的过程）

再将状态组合形成音素（通常3个状态=1个音素）

最后将音素组成字词（dà jiā hǎo）并串连成句。于是，这就可以实现由语音转换成文字了。

文章为沃丰科技原创，转载需注明来源：https://www.udesk.cn/ucm/faq/17355