本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】深度 | 机器学习很有趣Part6:怎样使用深度学习进行语音识别

时间:2017-02-19 14:29来源:本港台现场报码 作者:118开奖 点击:
还记得machine learning is fun吗?本文是该系列文章的第六部分,博主通俗细致地讲解了神经网络语音识别的整个过程, 是篇非常不错的入门级文章。 语音识别正闯入我们的生活。它内置

还记得machine learning is fun吗?本文是该系列文章的第六部分,博主通俗细致地讲解了神经网络语音识别的整个过程, 是篇非常不错的入门级文章。

语音识别正闯入我们的生活。它内置于我们的手机、游戏机和智能手表。它甚至正在让我们的家庭变得自动化。只需要 50 美元,你就可以买到亚马逊的 Echo Dot——一个能允许你订购比萨饼,直播,获得天气报告,甚至购买垃圾袋的魔法盒——只要你大声说:「Alexa,订购一个大披萨!」

  

码报:【j2开奖】深度 | 机器学习很有趣Part6:怎样使用深度学习进行语音识别

Alexa, order a large pizza!

Echo Dot 在这个假期很受欢迎,亚马逊似乎没有 Echo Dot 的库存了。

语音识别已经存在数十年了,但是为什么现在才刚刚开始成为主流呢?原因是深度学习让语音识别足够准确,能够让语音识别在需要精心控制的环境之外中使用

吴恩达早就预测,当语音识别的准确率从 95%达到 99%时,语音识别将成为人与计算机交互的主要方式。4%的准确性差距就相当于「难以容忍的不可靠」到「令人难以置信的有用性」之间的差异。由于有深度学习,我们正在走向顶峰。

让我们学习怎样利用深度学习进行语音识别!

机器学习并不总是黑箱

如果你知道神经网络机器翻译怎样工作,你可能会猜到:我们可以简单地将声音录音输入神经网络,然后训练神经网络来生成文本:

  

码报:【j2开奖】深度 | 机器学习很有趣Part6:怎样使用深度学习进行语音识别

这是用深度学习进行语音识别的核心,但我们还没有完全做到(至少在我写这篇文章的时候没做到——我打赌,在未来的几年我们可以做到)。

最大的问题是语音会随着速度变化。一个人可能很快地说出「Hello!」,而另外一个人可能会很缓慢说「heeeelllllllllllllooooo!」。这就产生了一个更长的声音文件和更多的数据。这两个声音文件本应该被识别为完全相同的文本「hello!」而事实证明,把各种长度的音频文件自动对齐到一个固定长度的文本是很难的一件事情。

为了解决这个问题,我们必须使用一些特殊的技巧和一些除了深度神经网络以外的额外处理。让我们看看它是如何工作的吧!

将声音转换成「字节」

语音识别的第一步是很显而易见的——我们需要将声波输入到计算机。

在第 3 章中(https://medium.com/@ageitgey/machine-learning-is-fun-part-3-deep-learning-and-convolutional-neural-networks-f40359318721#.tvzicp8bh),我们学习了如何把图像处理成数字序列,以便我们能直接将其输入进神经网络进行图像识别:

图像仅是图片中每个像素值的数字编数组

声音以波的形式传播。我们怎样将声波转换成数字呢?让我们使用我说的「hello」这个声音片段作为例子:

  

码报:【j2开奖】深度 | 机器学习很有趣Part6:怎样使用深度学习进行语音识别

音频「Hello」的波形

声波是一维的。在每个时刻,它有单一的高度值对应。让我们放大声波的一个小部分,看看:

  

码报:【j2开奖】深度 | 机器学习很有趣Part6:怎样使用深度学习进行语音识别

为了将这个声波转换成数值,我们只记录波在等间隔点的高度值:

声波采样

这被称为「采样」。我们采取每秒读取数千次的方式,并把声波在对应时刻的高度值记录下来。这基本上是一个未被压缩的.wav 音频文件。

「CD 音质」以 44.1kHZ(每秒读取 44100 次)进行采样。但是对于语音识别,16kHz 的采样频率足以覆盖人类语言的频率范围。

让我们用 16kHz 的方式对「Hello」音频采样,这是前 100 个样本:

  

每个数字代表声波在第 1/16000 间隔处时刻的高度值。

数字采样快速入门助手

你可能会认为:采样只是对原始声波的粗略近似,因为它只是间歇性读取数据,我们的读数之间有差距,所以我们丢失了数据,对吗?

  

码报:【j2开奖】深度 | 机器学习很有趣Part6:怎样使用深度学习进行语音识别

数字采样能否完美重现原始声波?如何处理那些间距?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容