报码:【j2开奖】秦涛：深度学习的五个挑战和其解决方案(3)_本港台直播_J2开奖直播

对偶学习试图把这种结构的对偶属性应用在机器学习里。其基本思想比较简单，我们以机器翻译为例子来说明。我们想把一个中文句子翻译成英文，我们可以先用一个中文到英文的翻译模型，把这个句子翻译成英文的句子，因为我们没有英文的标注，所以不知道这个英文的翻译是好还是坏以及有多好多坏。我们再利用从英文到中文的翻译模型，把这个英文的句子翻译成中文的句子，这样一来，我们就得到了一个新的中文句子。整个过程包含了正向翻译和反向翻译互为对偶的两个步骤。然后我们比较原始中文的句子和后来得到的中文句子，如果两个翻译模型都很好的话，这两个中文的句子应该比较相似，如果两个模型不好或者有一个模型不好的话，得到的两个中文句子就不相似。因此我们可以通过这种对偶过程从无标注的数据获得反馈信息，知道我们的模型工作的好还是不好，进而根据这些反馈信息来训练更新正向反向模型，从而达到从无标注数据学习的目的。

我们在机器翻译里面做了一些实验，发现通过对偶学习的过程，我们只需要用10%标注的数据（大概100万英法双语句对），再加上很多没有标注的数据，达到用100%标注数据（1200万英法双语句对）训练的模型的准确度。大家回想一下，我们前面有个粗略的估计，一千万个训练语料标注的费用差不多2200万美元，如果我们能把标注的人工费用从2200万美元降到200万美元，这会是一个非常好的结果，能够大大降低公司运营成本提高运营效率。

最近我们在对偶学习的研究上有一些新的进展，把对偶学习这种基本思想应用到其他的问题里面，像图像分类、图像生成，以及对自然语言的情感分析。我们发现这种结构的对偶属性可以从不同角度帮助机器学习，提高学习算法的准确度。

从无标注的数据进行学习，我们预计在未来三到五年还是非常重要的一个问题，并且对我们实际的应用也会有很大的帮助。很多问题以前是因为受限于没有标注的数据，没有办法用深度学习技术，如果我们能够从无标注的数据进行学习，那么很多应用很多问题里面都可以应用深度学习技术。

挑战2:大模型不方便在移动设备上使用

前沿2:降低模型大小

现在常见的模型，像图像分类里面，微软设计的深度残差网络，模型大小差不多都在500M以上。自然语言处理的一些模型，例如语言模型（language modeling）随着词表的增长而变大，可以有几G、几十G的大小，机器翻译的模型也都是500兆以上。当然500M的大小大家可能觉得没有多大，一个CPU服务器很容易就把这个模型给load进去使用。但是大家要注意到，很多时候深度学习的模型需要在一些移动设备上使用。比如说手机输入法，还有各种对图像做变换做处理做艺术效果的app，如果使用深度学习的话效果会非常好，但是这种模型由于它们的size太大，就不太适合在手机上应用。大家可以设想一下，如果一个手机的app需要加载一个500M甚至1G以上的模型恐怕不太容易被用户接受。

因此当前深度学习面临的第二个挑战就是如何把大模型变成小模型，这样可以在各种移动设备上使用。因为移动设备不仅仅是内存或者存储空间的限制，更多是因为能耗的限制，不允许我们用太大的模型。近两年来，有一些相应的工作，今天我主要介绍两种：第一种是针对计算机视觉里面的CNN模型，也就是卷积神经网络，做模型压缩；第二种是我们去年做的，针对一些序列模型或者类似自然语言处理的RNN模型如何做一个更巧妙的算法，使得它模型变小，并且同时精度没有损失。

通过模型压缩的技术缩减模型的大小

对卷积神经网络而言，近一两年有一些项目，主要是采用模型压缩的技术缩减模型的大小。模型压缩的技术，可以分为四类：

报码:【j2开奖】秦涛：深度学习的五个挑战和其解决方案

(责任编辑：本港台直播)