RankBrain2015年启动,在搜索排名(前100位排第三),里面难点是搜索排序需要了解模型,要理解为什么要做某个决定。当系统发生错误为什么做那个。 调试工具准备好,需要足够的理解能力嵌入模型,去避免主观。总体上是不想手工调参数。你需要尝试理解模型中的预测,去理解训练数据是否相关,是否跟问题无关?你需要训练数据并应用到别的上面。通过搜索查询的分布你能得到每天的变化,事件发生后改变也随时发生。你要看分布是否稳定,比如语音识别,一般人不会改变音色。当查询和文档内容频繁变化,你要保证模型是新的。本港台直播们要搭建通用工具去理解神经网络里面发生了什么,解释什么导致这个预测。 序列模型
很多问题都可以映射到从一个序列到另一个序列的规律。比如语言翻译,从英语翻译到法语,就是把英语的序列单词转化到法语序列单词。 神经网络在学习复杂函数时特别有用,这个模型学习从英文到法文的句子。句子以单词为单位,以结束符作为信号。训练模型在遇到结束符时开始产生另一个语言的对应句子。而模型函数就是把语言中语句对作为训练数据。 每一步都在词典表中的单词产生概率分布。在推理时候通过一些搜索来实现,如果你最大化每个单词的概率,这样找的不是最可能的句子。直到找到最大可能的句子找到才结束搜索。 这个系统在公开翻译系统中表现出色。大多数其开奖直播翻译系统需要手工编码或机器学习的模型只是在一小部分使用,而不是像这种整体的端到端的学习系统。
这些领域都是可以归到序列类的方法。 7)智能回复
智能回复是另一个序列类的例子。在手机上你如何更快回复邮件,打字很累。 Gmail组开发了一个系统能够去预测邮件回复。第一步就是训练小量模型去预测如果消息是某一类的,怎么做简短回复。如果是一个更大,计算能力更强的模型将消息作为一个序列,尝试预测序列的响应语。比如对于节日邀约,最可能的三个答复是“算上本港台直播们”,“本港台直播们会去的”,“对不起,本港台直播们有事没法耍”。 8)看图说话
把之前开发的图片模型与序列类模型结合一起。图片模型作为输入。这里就不是阅读英文句子了,而是看图片的像素。 接下来就是训练生成字幕。训练集有5个由不同的人写的不同的字幕。总共100万图片,70万条语句。效果如下:
两个模型翻译的都不错:1)一个小孩紧紧的抱住毛绒玩具。2)一个宝宝在泰迪熊旁边睡着了。
上面是一些好玩的出错语句,为啥会错,其实你自己看了也明白。 9)机器视觉和翻译结合
翻译团队写了一个app,使用计算机视觉来识别镜头中文字,再翻译成文本,最后再图片本身覆盖翻译好的文字。模型足够小可以运行在所有设备上。 直接在手机上跑一些模型中的重要方法。智能化将转移到设备端,这样不会依赖远程云端的大脑。研究上的努力和成果转化 Google 非常在乎研究转化效率。就是要快速训练模型,理解那些做的好的和不好的,再想下一步实验。模型应该再分钟或者小时,而不是几天或者几周。这样让每个人都做研究更高效。 (责任编辑:本港台直播) |