本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】干货 | Nervana技术深度解读:使用Neon的端到端语音识别是如何实现的

时间:2016-12-17 14:00来源:香港现场开奖 作者:www.wzatv.cc 点击:
参与:杨旋、张瑞宁、chen chen 语音是一种固有的即时信号。语音中所承载的信息元素在多个时间尺度上演变。在空气压强的影响下,同一个声源的频率只会发生几百上千赫兹的变化,

参与:杨旋、张瑞宁、chen chen

语音是一种固有的即时信号。语音中所承载的信息元素在多个时间尺度上演变。在空气压强的影响下,同一个声源的频率只会发生几百上千赫兹的变化,所以我们可以利用声音去判断一个声源的位置,并把它与周围嘈杂的环境区分开来以获得传递的信息。语音的功率谱中的缓慢变化的部分就是音素(phoneme)的生成序列,其中音素是构成我们所说的词的最小单位。除此之外,其中由单词组成的序列的变化更缓慢,这些词就组成了短语和叙事的结构。然而,这些元素在时间尺度上没有严格的区分界限。相反,各种尺度的元素都混合在了一起,所以时间上下文是十分重要的,其中较为稀少的停顿就可以作为元素之间区分的界限。自动语音识别(ASR)系统就必须弄明白这种噪声多尺度数据流,将其转换为准确的单词序列。

在撰写本文时,当下最流行和成功的语音识别引擎采用了一种混合系统来构建。即同时将深度神经网络(DNN)与隐藏马尔科夫模型(HMMs),上下文相关电话模型(context-dependent phone models),n-gram 语言模型(n-gram language models),和一种维特比搜索算法(Viterbi search algorithms)的复杂变体进行混合使用。这个模型相当的复杂,需要一套精致的训练方法,以及相当多的专业知识来帮助搭建模型。如果说深度学习的成功能教会我们什么东西,那就是我们可以经常用一种通用的神经网络来替代复杂的,多维度的机器学习方法,这些神经网络经过训练以后可以用来优化可微分的代价函数(cost function)。这种方法(我们暂且把这种方法称为「纯正」的 DNN 方法),已经在语音识别上取得了巨大的成功。现在,一旦我们有了相当多的训练数据和足够的计算资源,我们就可以更加轻松地构建一个高水准的大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition (LVCSR))系统。

本文的目的是为了对如何使用 Neon 来建立一个使用「纯正」DNN 方法的语音识别系统提供一种简单的指导介绍,其中 DNN 遵循了 Graves 和 他协作者所倡导的方法,同时,百度的人工智能研究人员对其进行了进一步的开发,让其成为了一种完整的端到端的 ASR 管道(end-to-end ASR pipeline)。同时,作为对本博文的补充,我们将会开源我们实现的这个端到端的音识别引擎(end-to-end speech recognition engine)的代。在其最初始形式中,系统使用双向循环神经网络(BiRNN)来训练模型以直接从频谱图产生转录,而不必显示地将音频帧与转录对齐。与之取代的是一种隐式对齐,我们采用了 Graves 的连接体时间分类(CTC)算法(Connectionist Temporal Classification ,CTC)来实现。

虽然「纯正」DNN 方法现在允许使用具有最先进性能的 LVCSR 系统进行训练,但是显式的解步骤 : 将模型输出转换为单词的可感知序列,在评估期间仍然是十分关键的。解码的技术是多种多样的,我们通常同时使用加权有限状态传感器(weighted finite state transducers)和神经网络语言模型(neural network language models)。如果想要了解相关的内容,那么需要一篇更加深入的文章来进行介绍,而本文主要限于 ASR 管道的训练部分。如果需要的话,我们为读者提供一些额外的参考知识来以填补空缺,希望能给读者传达构建端到端语音识别引擎的完整视图。

简单扼要的说,端到端语音识别流水线由三个主要部分组成:

1. 特征提取阶段,其将原始音频信号(例如,来自 wav 文件)作为输入,并产生特征向量序列,其中有一个给定音频输入帧的特征向量。特征提取级的输出的示例包括原始波形,频谱图和同样流行的梅尔频率倒频谱系数(mel-frequency cepstral coefficients,MFCCs)的切片。

2. 将特征向量序列作为输入并产生以特征向量输入为条件的字符或音素序列的概率的声学模型。

3. 采用两个输入(声学模型的输出以及语言模型)的解码器并且在受到语言模型中编码的语言规则约束的声学模型生成的序列的情况下搜索最可能的转录。

  

wzatv:【j2开奖】干货 | Nervana技术深度解读:使用Neon的端到端语音识别是如何实现的

处理数据

当构建端到端语音识别系统时,一套有效的加载数据的机制是十分关键的。我们将充分利用 Neon 1.7 版本中新添加的功能:Aeon,一个能够支持图像,音频和视频数据的高级数据加载工具。使用 Aeon 大大简化了我们的工作,因为它允许我们直接使用原始音频文件训练声学模型,而不必困扰于对数据显示地预处理过程。此外,Aeon 能让我们更加容易的指定我们希望在训练期间使用的光谱特征的类型。

提取数据

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容