本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【组图】LightRNN:深度学习之以小见大

时间:2016-12-28 07:14来源:报码现场 作者:开奖直播现场 点击:
LightRNN :深度学习之以小见大 秦涛 微软亚洲研究院 历经沉浮, AI 终去颓势,一扫六合,雄踞当今 IT 江湖之巅,江湖帮派无论大小皆以 AI 为荣。然帮派虽众,论及武功秘籍,江湖中

  

码报:【j2开奖】LightRNN:深度学习之以小见大

LightRNN深度学习之以小见大

秦涛

微软亚洲研究院

历经沉浮,AI终去颓势,一扫六合,雄踞当今IT江湖之巅,江湖帮派无论大小皆以AI为荣。然帮派虽众,论及武功秘籍,江湖中只有一个传说,“深度学习,AI至尊,号令天下,莫敢不从,RL不出,谁与争锋”。江湖公认,深度学习,无他,唯大尔。深度学习之大,境界有三重,大数据、大模型、大计算,传言唯有修至三重境者,方能领会深度学习之真谛。然成也萧何、败也萧何,深度学习,因大而崛起闻名于江湖,亦因大而阻碍其一统江湖的步伐:唯有大型帮派,方有财力人力体会三重境之美妙,而限于财力人力小门小派往往不能承受深度学习之大。所幸江湖儿女多豪杰,我辈AI中人多志士,诸多英雄好汉前赴后继,不断钻研,力图以小见大,使得深度学习之大能够返璞归真。本文所要讲述的正是发生在MAI部门亚洲分舵的一小段故事。

话说M帮是个超大型帮派,帮众甚多,直接服务IT江湖的产品部门和分舵也众多。听闻循环神经网络(RNN)乃武功秘籍深度学习中的一大绝招,横扫很多应用,包括语言建模、机器翻译、聊天机器人、看图说话(Image captioning)等等,很多分舵尝试把该绝招应用到产品中。然而尽管前途光明,但道路总是曲折的。大家很快发现RNN应用于自然语言处理任务中面临着一个巨大挑战:当语料库词表很大时,模型的体量将变得非常大。例如,当使用RNN 进行语言建模(language modeling)时,每个词首先需要通过一个输入嵌入矩阵(input-embedding matrix)从one-hot 向量(其维度与词汇表大小相同)映射到一个词向量。然后为了预测下一词的概率,通过输出嵌入矩阵(output-embedding matrix)将隐藏层映射到词汇表中每个词的概率。当词表包含上千万个不同的词时(这在Web 语料库中很常见),如果每个词用一个1024维的嵌入向量表示,这两个矩阵就会包含数百亿(10Million×1024×2=20Billion)个不同的元素,这会使RNN 模型变得过大(超过80GB),而当今江湖深度学习的独门武器GPU的内存最大也只有24GB——很显然,RNN模型之大已超出了深度武器的能力,从而阻碍了RNN在实际中的应用。

  

码报:【j2开奖】LightRNN:深度学习之以小见大

解决这一问题的一种思路是阵法。阵法可以使多个GPU组成阵列,从而应对大数据大模型的挑战。这种思路的本质是以力服人、一力降十会,你有大数据大模型,我有大计算。一般来说,阵法非常有效,然而其带来的一个问题就是进一步加剧了对计算资源的需求,这与以小见大的目标背道相驰。为此,MAI部门亚洲分舵一小撮帮众聚集在一起,对RNN这一深度学习的绝招做出精巧的改进,其本质是四两拨千斤,将标准的RNN提升到新的一种境界,即LightRNN标准的RNN模型之所以大,是因为每个词都有一个单独的嵌入向量表达。LightRNN的解决方案是引入一个二维词表,其每一行关联了一个行向量(上图中的二维词表的第一行对应的行向量是x?),每一列关联了一个列向量(上图中的二维词表的第一列对应的列向量是y?)。然后把语料库里的每一个词放到二维词表的一个表格,根据一个词在二维表中的位置,该词可由行向量和列向量联合表示(上图中,January的表达为(x?,y?, two的向量表达为x?,y?)。因为该表中同一行里的所有词共享相同的行向量,同一列的所有词共享相同的列向量,所以LightRNN仅仅需要2√|V|个向量来表示有|V|个词的词汇表,远远少于标准的RNN所需要的向量数|V|。这种词嵌入的做法被称做两部共享嵌入。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容