人在鸡尾酒会这样非常嘈杂的环境中能够把注意力集中在某一个人的声音上,屏蔽掉周围的说话声或噪音,非常好地听懂其要关注的那个人的说话声音。现在绝大部分的语音识别系统却没有这个能力。这个问题在近场麦克风并不明显,这是因为人声的信噪比非常大,而在语音识别系统上,信噪比下降得很厉害,所以说这个问题变得非常突出,成为了一个非常关键、比较难解决的问题。 Label permutation问题目前有两个较好的解决方案: 方案一:Deep Clustering。 方案二:Permutation invariant Training。 但是目前为止我们所用的一些信息,只用到了单麦克风的输入信息。但是我们知道麦克风阵列可以提供很多的信息,所以一个很重要的问题是如何有效地利用多麦克风信息来继续加强其能力。第二个就是有没有办法能够找到一个更好的分离模型,因为现在大家用的还是LSTM,但是LSTM不见得是最佳模型。第三个问题是我们有没有办法利用其他的信息,能否利用这些信息来进一步提升它的性能。 研究方向三:持续预测与适应的模型 第三个大家关注的热点是能否建造一个持续做预测系统。我们之前做了一个模型,它的好处是能够非常快地工作,根据结果来改进下一个数据的识别结果。目前由于模型比较大,所以性能上很难训练。 所以现在的问题是如何建造一个更好的模型,它能够持续地做识别。它需要的特点是什么呢?一个是它能够非常快地做Adaptation,使得下一次再做识别的时候,我们有办法把类似信息用更好的方式压缩在模型里面,所以在下一次可以很快做识别。 研究方向四:前后端联合优化 第四个研究前沿有关远场识别以及如何做前端和后端更好的联合优化。传统来讲,前端的信号处理技术一般只用到当前状态下的语音的信号信息。而机器学习方法用到很多的训练器里学到的信息,但是很少用到当前帧的信息,它不进行数据建模,所以我们有没有办法把这两种方法比较好地融合在一起,这是目前很多研究组织发力的一个方向。 另外,我们有没有办法更好地把前端的信号处理跟后端的语音识别引擎做更好的优化。因为前端信号处理有可能丢失信息,且不可在后端恢复。所以我们有没有办法做一个自动的系统,能够比较好地分配这些信息的信号处理,使得前端可以比较少地丢失信息,从而在后端把这些信息更好地利用起来。 (责任编辑:本港台直播) |