本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【组图】今日头条李磊:机器学习问答与新闻创作(3)

时间:2016-12-28 21:41来源:668论坛 作者:本港台直播 点击:
类似的模型还有一个叫LSTM,是长短式记忆,也希望通过控制信息的输入控制每一个单元信息的输出,通过这样一些控制以后,它能够实现信息的长短时的

  类似的模型还有一个叫LSTM,是长短式记忆,也希望通过控制信息的输入控制每一个单元信息的输出,通过这样一些控制以后,它能够实现信息的长短时的记忆。这些我们需要使用的基本工具,我们下面看一看如何用基本工具做自动问答。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  回顾一下我们要解决的问题,我们已经有了左边这个知识库,以图的形式存在,这个知识库非常大,我们的知识库数据含有几百万的实体节点,边也有几千万。系统的输入是像右边一样的自然语言问题,我们希望把它对应的实体和关系找出来,最后生成结构化的查询语句在知识库自动查找。我们先看一下有什么简单的方案可以解决这个问题,最简单的办法就是去找这个句子里出现的实体,通过匹配N-gram的侯选集,所有出现的单词可以组成一个侯选集,二元组可以成为一个,三元四元都可以,所有出现这种N元组都可以成为侯选集。这些候选集当中我希望能够自动找到最准确的一个,当然这里的David Beckham是二元组。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  这是一个方案,但这个方案不是最理想的,因为它会带来非常非常大的噪声。可以看到这会生成非常多的侯选集,其中绝大多数是没有用的。怎么样把这些没有意义的候选集去掉?有一个改进的方案,就是我如果小的单元被长单元包含的话,我就只保留长的单元,把小的去掉,这是一个贪心的方案。但通过这种方法仍然有非常多噪音,所以我们提出另一个方案。

  先看这个问题,比如下面这个句子。“What theme is the book thearmies of memory?”。你通过前面讲N-gram匹配的方法,你会发现有很多并不重叠的词会在知识库找到侯选实体,比如说”book”有73个实体,”theme”有200多个,”Memory”有500多个,这些侯选集都加起来是上千个,在其中找到一个正确的实体非常难。

  我们要做一个模型可以把这个范围缩小。怎么做?通过一个方法叫focused pruning。我们通过一个机器学习的模型给可能是中心实体的短语(subject mention)打分,表示这个短语可能对上数据库的实体的概率。比如大卫贝克汉姆,大卫可能是一个侯选,贝克汉姆也可能是一个,我们给所有的侯选计算概率。这里的模型需要从句子结构本身来理解那一部分可能是问题的中心实体。这里并不需要对知识库的实体进行匹配。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  从短语找对应的实体也带来一个问题,我们要对它进行向量化的表示,什么样的比较好?比如大卫贝克汉姆是一个实体,我们可以选择随机的向量,结果证明随机的向量还可以,有一点效果的。但我也可以通过一个更好的方式——TransE的方法。我们有三元组,把subject, relation, object每一部分都表达成一个向量,训练时加上一个限制:subject向量加上relation向量必须要等于object向量。通过这样的约束条件来训练向量,只需要知识库本身就可以训练出来实体的表示。第三种方法是我们在CFO这篇论文里提出的方法,叫做Type-vector。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  它的做法是用实体的类型表示成二值化的向量。它不需要训练,通过构造一个表示,非常快。具体如何做,比如大卫贝克汉姆的实体,我们把它对应的类别找出来标上1,其余所有的类别都为0。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  中心实体短语模块、实体匹配、关系查找加上前面提到的循环神经网络就可以构建一个统一的学习模型来查找答案。对于输入句子,通过词的向量Embedding。这些embedding通过多层双向GRU循环神经网络处理,叠了两层以后得到问题语句的向量表示。然后和关系的项亮计算相似度,得到这个关系以后和前面的pruning方法找出来的候选实体结合起来一起查找答案,最后对所有的实体和关系统一起来,做综合排序。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  我们来看一下CFO系统的直观效果,这边有一些例子是我们系统可以回答的问题。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容