wzatv:【j2开奖】为何机器学习识别声音还不像识别图片那么容易？_本港台直播_J2开奖直播

　　编译团队 |Yawei，开奖，j2直播， Jennifer Zhu，孙雅姗

　　声音是传递信息的重要方式之一。大多数开车的人都熟悉汽车皮带打滑的声音。我爷爷甚至能靠耳朵来判断高载火车的刹车问题。还有很多专家都能通过听他们常用机器发出来的声音来检测机器运行的问题。

　　如果能找到一种自动监听的方法，我们就可以24小时监控我们生活的世界中存在的各种机器。 当我们被通知机器声音发生异常时，我们便可以预测出发动机、铁路基础设施、石油钻井和发电厂的运行故障。

　　自动监听技术能减少运行事故造成的人员伤亡。尽管最近机器学习领域取得了很大发展，利用机器学习实现自动监听的技术仍处于研发阶段。我们已经获得许多音频数据，但这些数据往往没有关键的分类标签（译者注：即标注每段音频来自正常还是异常的运行情况）。在深度学习的模型里，这样的“黑箱”问题让我们很难确定某段音频被标记为异常的原因。我们仍然在努力解决真实的机器学习的边缘问题中的难题。。而且这些音频常常带有比信号更强的噪音，从而限制了我们能从音频数据里提取到的可用于机器学习的特征。

　　声音的鸿沟

　　大多数机器学习领域的研究者认为人工智能作为一颗冉冉升起的新星，将征服一个又一个领域，偶尔还能有些影响广泛的大突破。根据这个预测，我们已经征服了图像字幕和语音识别领域，但使用更广泛的机器声音识别仍落在后面。

　　众多机器学习的突破背后依赖于一个精心组建的数据集。比如：在研究对象识别的时我们可以用 ImageNet（译者注：ImageNet是一个被广泛应用于图像识别研究的图像数据库），而在研究语言数据联盟和语音识别时则可以参考GOOG-411（译者注：GOOG-411是Google公司在2007年推出的一个以语音识别为基础的商业性电话公司咨询服务，该服务已于2010年11月12日终止）。但要找到一个合适的数据集来区分列车门关闭和卧室门关闭的声音仍然具有一定的挑战性。

wzatv:【j2开奖】为何机器学习识别声音还不像识别图片那么容易？

　　Deepgram（一家帮助其他公司搜索和分类音频数据的创业公司）的首席执行官Scott Stephenson认为：“如果你能正确地构建模型，深度学习可以做很多事情。你所需要的只是很多机器的数据。十五年前还没有那些好的数据集的时候，语言识别技术也没有现在这么成熟。 ”

　　尽管亚马逊土耳其机器人（AmazonMechanical Turk）上有大量公众可以使用的带标签的狗和猫的图片（译者注：这些大规模猫狗图片数据集已被广泛用于深度学习的研究），但要收集100,000个滚珠轴承的声音和那些带标记的猫狗数据集是完全不同的。（译者注：亚马逊土耳其机器人是一个Web服务应用程序接口（API），开发商通过它可以将人的智能整合到远程过程调用（RPC）。）

　　这些问题已经折磨着单一用途的声学分类器，而更加难以实现的目标是建造一个可用于识别所有的声音（而不仅仅是建一个区分这些门的声音的模型）的工具。

　　通过内省欣赏

　　人类的归纳能力使我们特别擅长给声音进行分类。回想一下上一次你听到一辆救护车从你的公寓楼下冲过，即使多普勒效应造成声波的变化频率会影响你听到的警笛的音调，你仍然能很容易地识别出冲过的是辆救护车。

　　然而研究人员需要发挥出创造性才能把这个过程自动化。其中一个原因是从收集移动物体（声音）信息的固定传感器中提取的特征是有限的。

　　缺乏源分离可能使问题进一步复杂化。（译者注：在数字信号处理领域，源分离问题指从几个信号混合成的合成信号中恢复原始的分量信号。）即使是人类自己也不容易分离这些混合的声音信号。如果你曾经尝试在一个喧哗的餐厅里试图听清楚其中一个桌子上的对话，你就知道理解混合在一起的声音有多么困难。

wzatv:【j2开奖】为何机器学习识别声音还不像识别图片那么容易？

　　英国萨里大学（University ofSurrey）的研究人员能使用深度卷积神经网络（deepconvolutional neural network）在许多歌曲中分离人声和背景乐器。他们的诀窍是把50首歌拆分成的单个乐器和人声来训练他们的模型。然后将这些声轨切割成每段20秒来创建许多个谱图。利用这50首歌的谱图，他们的模型能在新的歌曲中分离人声和背景乐器。

　　但这仅仅是把一首歌分成五个易于识别的部分。如果我们要记录一个近60英尺高（译者注：约18米高）的MANB＆W 12S90ME-C Mark 9.2型柴油发动机的声音，并要求机器学习模型切分出来自发动机各元件的声音，就不是一件容易的工程了。

　　声音领域的开拓者

(责任编辑：本港台直播)