无监督学习的目的是要寻找数据中的潜在规律。很多情况下,atv直播,它试图寻找某种特征变换和相对应的生成模型来表达原始数据。但无监督学习不仅本身困难,对无监督学习系统的评价也很难。原因是通过无监督学习找到的规律不一定对你将来的任务有帮助,或者它对某一任务有帮助,换一个 任务就没有帮助了。当然,如果你的目标仅仅是数据压缩,评价还是容易的,但我们使用无监督学习压缩本身往往不是主要目的。 机器之心:那半监督学习呢? 俞栋:半监督学习介于两者中间。因为你已经有一部分标注信息了,所以你 的任务是明确的,不存在不知如何评估的问题。半监督学习在实用系统里还是有一定作用的。比如说我们需要标注大量数据来训练语音识别系统,但人工标注既花时间又花钱,所以你往往有比标注数据多得多的未标注数据。没有标注过的数据,也有很多可以利用的信息,虽然它们的价值远远小于标注的数据。半监督学习对我们的系统性能有一定的提升。 机器之心:最后一个问题,在整个人工智能的布局上,您认为语音识别是一个怎样的定位? 俞栋:在很多应用场合,语音识别是一个入口。没有这个入口的话,大家都会觉得这个智能机器不够智能或者与这个智能机器交互会有困难。人机交互中语音识别是第一步。如果语音识别做得不够好,那后期的自然语言理解等的错误率就会大幅上升。这也是为什么语音到语音的翻译要比文本到文本的翻译难很多,因为在语音对语音的翻译系统里语音识别产生的错误会在后面翻译的过程中放大。 历史上,语音识别也为机器学习和人工智能提供了很多新的方法和解决方案。比如语音识别里的关键模型 Hidden Markov Model 对后来机器学习的很多分支都有帮助。深度学习也是先在语音识别上取得成功,然后才在图像识别和其他领域取得成功的。
专访 | 微软人物志 (责任编辑:本港台直播) |