但是这些早期的机器学习分类技术的准确度还不够高,能给助听器佩戴者提供的帮助还不够多。它们还不能处理一些比较复杂和不可预知的问题,不能把噪音和有效语音分离。为了达成这个目的,我们需要一些更强大的东西。 我们在我们早期的分类算法的执行结果中看到了前景,我们决定采取下一个逻辑步骤来改进系统,让其在没有训练特定的噪声和句子的情况下也可以在嘈杂的真实环境中工作。正是这些具有挑战的事情促使我们尝试去做一些以前从未做过的事情:构建一个运行在神经网络上的机器学习程序(参考论文《An algorithm to improve speech recognition in noise for hearing-impaired listeners》),让其在经历复杂的训练过程之后可以将语音与噪声分离。程序将使用理想的二进制掩码来指导神经网络的训练。最后,我们成功做到了。在一项涉及 24 名测试对象的研究中,我们证明了该程序可以将听力障碍人士的理解程度提高约 50%。 从根本上说,神经网络是由一些相对简单的元素构成的软件系统,这些简单的元素聚合在一起就可以处理一些较复杂的问题。(这个系统的架构大致上是在模仿大脑中的神经元的工作)当遇到新的问题的时候,神经网络就会像人类大脑一样,开奖,通过调整各个神经元之间连接的权重来进行「学习」。
Smart Layers:深度神经网络的输入输出层之间有两个或两个以上的处理层,输入信息被输入到输入层(左),然后这些信息经过处理层的处理之后又被送到了输出层(右),这就是我们需要的结果。研究人员可以通过调整系统的参数和各个层之间的连接来提高系统的性能。 神经网络具有很多种不同的形状和规模,并且它们的复杂度也各不相同。深层神经网络被定义为具有至少两个「隐藏」处理层,并且它们不直接和系统的输入输出层进行连接。每个隐藏层都会对前一层传递给它的内容进行优化,基于现有知识再添加一些新的考虑。 举个例子,有一个用于识别客户手写体签名的程序(参考论文《Machine Learning for Signature Verification》),这个程序一开始会把新的签名和训练数据库中已经存在的签名进行对比。当然,经过训练后这个程序知道是不需要要求新的签名和原始签名必须完全匹配。其他层可以确定这个新签名和原始签名在某些特征上是否是保持一致的,比如字体的倾斜的角度或者是字母 i 上面的那一点的缺失。 为了建立我们自己的深度神经网络,我们开始通过编写算法来提取一些特征,这些特征通过声音的振幅、频率和各个调制的变化来从噪声中提取有用的语音。我们选定了几十个特征,这些特征可以在一定程度上帮助我们的程序区分语音和噪声,我们使用了所有选定的这 85 个特征,希望可以使算法尽可能地强大。在我们所选定的这些属性中,最重要的是声音的频率和它们的振幅(声音大或者小)。 接下来,我们使用了这 85 个选定的特征来训练深度神经网以实现区分语音和噪声的目的。这个训练过程一共有两个阶段:第一阶段,我们通过无监督学习设置程序的参数。也就是说,为了让我们程序可以在以后运行的过程中把各种各样的输入信号进行分类,我们会将许多属性的样例集加载到程序中。 接下来是第二阶段的训练,我们将使用嘈杂的语音和我们所期望得到的分类结果的二进制掩码作为训练样本,这个过程是监督学习。其中,构成理想结果的二进制掩码的 1 和 0 的集合就像一个答案表,我们用它来测试并提高我们的程序分离语音和噪声的能力。对于每个新样本,程序将从嘈杂的语音中提取一组属性。然后,程序会对语音的频率、振幅等属性进行分析,在这之后滤波器会执行一个暂时的分类以确定这到底是有效语音还是噪音,接下来会把这个分类的结果和样例中的分类结果进行对比。如果这个结果与我们所期望得到的 01 序列不匹配,我们就会调整神经网络中相应的参数,以便网络在下一次运行的时候可以产生更接近理想二进制掩码的 01 序列结果。 为了进行这些调整,我们首先会计算神经网络的误差,即对比理想二进制掩码和神经网络的最后一层(输出层)的输出结果之间的差异。当我们计算出误差以后,我们将使用它来改变神经网络各连接的权重,使得如果再次执行相同的分类,误差可以减小。为了减小误差,神经网络会对这个过程进行成千上万次的迭代。 (责任编辑:本港台直播) |