参与:李泽南、黄小天、吴攀 你想要训练一个可用于语音识别的深度神经网络吗? 我也是。两年前我获得了密歇根大学的博士学位成了一名粒子物理学家。我懂一些 C/C++和 Python,并且认识 Noah Shutty。我和 Noah 联合创建了 Deepgram,Noah 是一个精力充沛、学习速度极快的人。我们俩都没有语音识别背景知识,但是懂一点编程和机器学习应用的知识,有大量鼓捣数据处理/系统的经验。我们确实很清楚一件事——如何快速解决问题(一个建造深度地下暗物质探测器时练就的本领)。 那时,我们发现自己建造了世界上第一个基于深度学习的语音搜索引擎。为了发展我们需要一个可以理解语音的 DNN。我们成功了,现在你也可以。 项目地址: 下面是基本问题:
将下面这段音频:
一段普通人说:「I am a human saying human things」的声谱。 转换成下面这句文本:
听到了「I am a human saying human things」音频文件的一个 DNN 的预测结果 该怎么做? 在易于使用的 Kur 框架中训练一个 DNN 我们为什么这样做 你可以这么想:我们正在一个搜索音频的谷歌,我们需要一个用于语音识别的深度学习模型来完成这一目标。两年前我们开始的时候,百度首次公开了关于 Deepspeech 的论文,这对我们来讲是一件大好事。这将帮助我们搞明白深度学习可以如何用于搜索语音。 照片中是吴恩达,站在深度语音 RNN 的前面,看起来像是电影《A.I.》里的大坏蛋。
在英伟达的 GTC 大会上,来自百度的吴恩达正在做关于 Deepspeech 的演讲 第一步就是建立一个端对端的深度学习语音识别系统。我们已经做这个超过一年了,现在我们拿出来共享,就像当初百度共享给我们一样(好吧,事实上百度共享给了全世界)。 我们将给每一个人一个完全有效的 Deepspeech DNN。在 Deepgram 的开源 Python 软件包 Kur 中: 我们不是东拼西凑胡搞一通让它工作的。我们打造了一个运行在 TensorFlow 上的高质量抽象框架,使深度学习变的真正容易起来。 插播一句:为了 Deepgram 的生存我们不得不打造 Kur。现在人工智能领域已是一片红海,atv,除非胸有成竹,否则你不可能快速建立前沿的模型。 从前,运行 DNN 很麻烦,现在,这变的简单起来。我们的系统从基础做起,一步一步使其简单起来,使你可以描述模型,并且无需做繁杂的工作即可使其运转。 Kur 软件包刚刚发布。它免费且开源,以第一个神话之中的龙(dragon)来命名,Kur 由 Deepgram 人工智能小组全体成员倾力打造,希望你们会喜欢它。 我们要创造一些人工智能 四个轻松的部分: 1. 安装 Kur 2. 运行 Deepspeech 示例 3. 观察你的计算机如何学习人类语音 4. 你变成了邪恶的人工智能统领,请放声大笑 简介结束,现在进入实际操作! 一些小的说明:当你看到这起效时,你会认为自己是上帝。学习语音的训练网络是一种变革性的东西。考虑一下这种情况:你在自己的计算机上创造出来的人工智能现在能理解人类说出的话。你的所作所为要负责任。 额外补充:训练端到端的语音识别深度学习模型需要很多计算。你需要耐心。毕竟你自己也不是在几分钟之内就学会了听人说话。如果你耐心有限,可以使用强大的 GPU——Kur 支持。 下载并安装 Kur(这很简单) 对于安装,如果你已经安装了 Python3.4 或以上版本,你就只需要在你的终端运行$ pip install kur 即可。如果你需要指导,或者一个轻松的操作环境,请访问 kur.deepgram.com 查看完整的安装指导。 运行 Deepspeech 例子 (责任编辑:本港台直播) |