这让我们得到三种可能的转录 -「Hello」,「Hullo」和「Aullo」。如果你大声说出这些单词,这些转录的声音都类似于「Hello」。因为它每次只预测一个字符,神经网络会得出一些试探性的转录。例如,如果你说「He would not go」,它可能会给一个可能转录「He wud net go」 技巧是将这些基于发音的预测与基于书写文本(书籍,新闻文章等)的大数据库的似然分数相结合。你抛出看起来最不可能是真的的转录,并保持转录看起来最现实。 在我们可能的转录「Hello」、「Hullo」和「Aullo」中,显然「Hello」在文本数据库中更频繁地出现(更不用说在我们原始的基于音频的训练数据中),因此可能是正确的。所以我们选择「Hello」作为我们的最后的转录。这就完成了! 等一下! 但是如果有人说「Hullo」那又怎么样?「Hullo」是一个有效的词。也许「Hello」是错误的转录!
当然实际上可能有人说的是「Hullo」而不是「Hello」。但是这样的语音识别系统(基于美式英语训练)基本上不会将「Hullo」作为转录。相比」Hello「,用户不太可能说「Hullo」,即是你在说」Hullo「ullo,它也总是会认为你在说「Hello」,atv直播,无论你发「U」的声音有多重。 试试看!如果你的手机设置为美式英语,尝试让你的手机的数字助理识别「Hullo」。你不能达到目标!它会拒绝!它总是会理解为「Hello」。 不识别「Hullo」是合理的,但有时你会发现令人讨厌的情况:你的手机就是不能理解你说的语句。这就是为什么这些语音识别模型总需要更多的数据训练来处理这些少数情况。 我能建立自己的语音识别系统吗? 机器学习最酷的事情之一就是它有时看起来十分简单。你得到一堆数据,将把它输入到机器学习算法当中去,然后就能神奇的得到一个运行在你的游戏笔记本电脑显卡上的世界级人工智能系统... 对吧? 有些情况下的确是这样,但是语音识别却并不如此简单。语音识别是一个难题,你必须克服无限的挑战:质量差的麦克风、背景噪声、混响和回声、口音变化等等。这些问题都需要呈现在你的训练数据中,以确保神经网络可以处理它们。 还有另一个例子:你知道当你在一个大房间里说话时,你会不自觉地提高你的音调以便掩盖噪音吗?人类在什么情况下都可以理解你,但神经网络需要特殊训练来处理这些情况。所以你需要得到人们在噪音中大声说话的训练数据! 要构建一个达到 Siri、Google Now!或 Alexa 等水平的语音识别系统,你需要得到大量的训练数据,如果没有雇佣成百上千的人为你记录数据,你很难做到。用户对低质量语音识别系统的容忍度很低,因此你不能吝啬语音数据。没有人想要一个只有 80% 的时间有效的语音识别系统。 像谷歌或亚马逊这样的公司,现实生活中记录的成千上万小时的口语音频,对他们来说就是「黄金」。这就是将他们世界级语音识别系统与你自己的系统拉开差距的法宝。在手机上免费使用 Google Now! 和 Siri 或是不收取转录费且售价 50 美元的 Alexa,都是为了让你尽可能地使用它们。你说的每句话都将被这些系统所记录,然后这些数据将被用于训练未来的语音识别算法。 不相信我?如果你有一部安装了 Google Now!的安卓手机,点击这里去收听你对它说过的每一句话:
你可以通过 Alexa 在亚马逊上找到相同的东西。然而不幸的是,苹果手机并不允许你利用你的 Siri 语音数据。 (责任编辑:本港台直播) |