wzatv:【j2开奖】独家 | 吴恩达NIPS 2016演讲现场直击：如何使用深度学习开发人工智能应用？(4)_本港台直播_J2开奖直播

讲到这里，吴博士突然又插播了一条人生经验：我们企业呀，不要整天想搞个大新闻，东边一个服务器，西边一个服务器，显得自己很国际化。可是这样搞得数据很不统一。他十分建议企业都使用 unified data warehouse（统一化的数据中心），让数据科学家可以安心的玩数据。

经验分享介绍后，吴博士具体举个了智能后视镜的例子：如果我们要做个智能后视镜（语音操作的车内智能助手），我们的数据该怎么搞？

首先，假设我们有 50000 小时的语音资料（随便在哪里下载来的）和 10 小时的车内对着后视镜讲话的语音资料（比如，让客户假装他的后视镜是智能的，然后录下一些语音指令……）。面对这些数据，我们该如何构造我们的训练集？

wzatv:【j2开奖】独家 | 吴恩达NIPS 2016演讲现场直击：如何使用深度学习开发人工智能应用？

有人可能会这样说：50000 小时语料够大，可以分出一些来做开发集（dev set），其他的用来训练。而 10 小时珍贵的车内语音则做成测试集。

错！这是个非常不好的处理方式，因为你的开发集和测试集没能遵从相同的数据分布（distribution）。换句话说，开发集和测试集的内容「根本就不在同一个宇宙」。这样的结果就是，你的数据工程师在开发集上花费了很大的精力之后，结果放到测试集上却发现并没有什么用。

一个比较靠谱的处理方式应该是：

把 10 小时的车内语料分成开发集和测试集。同时，你也可以拿出训练集中的一部分内容作为训练-开发集（train-dev set）。这个数据集能帮助你的算法在训练集上做好优化，再转移到真实场景中。

按照这个构架，我们于是可以得到五种不同的误差值：

wzatv:【j2开奖】独家 | 吴恩达NIPS 2016演讲现场直击：如何使用深度学习开发人工智能应用？

人类误差、训练集误差，训练-开发集误差、开发集误差、测试集误差

其中，人类误差与训练集误差之间的差值还是称为 bias（偏差）；训练集误差与训练-开发误差之间的差值称为「训练集的过拟合」（也就是说，它代表了模型单纯在训练集上表现能力）；训练-开发误差与开发集误差之间的差值称为「data mismatch」（数据不匹配，就是刚才说的两组数据不在同一个「宇宙」带来的偏差）；开发集误差与测试集误差之间的差值称为「开发集过拟合」（同理）。

这个时候，拥有的差值就更多了，我们就需要一个新的处理策略：

wzatv:【j2开奖】独家 | 吴恩达NIPS 2016演讲现场直击：如何使用深度学习开发人工智能应用？