本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】【干货】怎样用深度学习做语音识别

时间:2016-12-30 15:08来源:668论坛 作者:j2开奖直播 点击:
:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j [email protected] HR 微信: 13552313024 新智元为COO和执行总编提供

  :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  简历投递:j[email protected]

  HR 微信:13552313024

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和金。

  加盟新智元,与人工智能业界领袖携手改变世界。

  【新智元导读】吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。归功于深度学习,这4%的准确率的提升使得语音识别从难以实际应用的技术变成有无限的应用潜力的技术。本文深入浅出介绍了怎样深度学习做语音识别。

  语音识别正在进入我们日常生活的方方面面。语音识别技术内置在我们的手机、游戏机和智能手表中,它甚至能将我们的整个家庭智能化。只需50美元就能买到一个Amazon Echo Dot,它像一个魔术盒子,可以帮你订购比萨,向你播报天气预报等等,你只需大声对它说:

  

报码:【j2开奖】【干货】怎样用深度学习做语音识别

“Alexa,order a large pizza!”

  语音识别技术已经发展了几十年,近年突然变得炙手可热,这归功于深度学习终于使得语音识别的准确率提升到足矣让这项技术在实验测试以外的实际场景中应用。

  吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。这4%的准确率的提升使得语音识别从难以使用到潜力无限。多亏深度学习的发展,我们终于到达语音识别的顶点。

  让我们一起来了解怎样用深度学习做语音识别。

  机器学习并不总是黑盒

  如果你对神经机器翻译的工作机制已经有所了解,你可能会想到,我们可以简单地将声音作为输入喂进神经网络,然后训练网络产生文本:

  

报码:【j2开奖】【干货】怎样用深度学习做语音识别

  上图是使用深度学习做语音识别的最佳机制,但我们目前还没有达到这一步。

  一个很大的问题是语速不同。某些人说“hello!”会很快速,有些人会拉得很长地说“heeeelllllllllllllooooo!”,这会产生更长的声音文件和更多的数据。这两个声音文件应该被识别为完全相同的文本——“hello!”这里面的难点在于把不同长度的音频文件自动对齐为一个同样长度的文本结果。

  要解决这个问题,我们需要使用一些特殊的技巧,在深度神经网络之上增加一些额外的处理。

  将声音转换为位元

  语音识别的第一步显然是——将声音馈送到计算机。

  在图像识别技术中,我们可以将图像视为数字的阵列,直接将数字喂入神经网络进行图像识别,如图:

图像被视为数字的排列,这些数字是对每个像素的强度进行解的结果。

  但声音是通过波(wave)传输的。怎样将声波转换为数字呢?让我们使用“Hello”这个声音片段作为例子:

  

报码:【j2开奖】【干货】怎样用深度学习做语音识别

  “Hello”的声波

  声波是一维的。每个时刻的声波只有一个单一的值,这个值的大小基于波的高度。让我们放大上述声波的一小片段看看:

  

报码:【j2开奖】【干货】怎样用深度学习做语音识别

  为了将这段声波转换成数字,我们需要记录等间隔点的波的高度:

  对一段声波采样

  这个过程叫做采样(sampling)。我们每秒读数千次,并记录下代表该时间点的声波高度的数字。这基本上是一个未压缩的.wav音频文件。“CD质量”的音频以44.1khz(每秒读取44100次)进行采样,但对于语音识别来说,16khz(每秒16000次采样)的采样率已经足以覆盖人类语音的频率范围。

  我们对“Hello”这个声波进行了16000次/秒的采样,这里是前100个样本:

  

每个数字代表间隔1/16000秒的声波的振幅

  数字采样重建原始声波

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容