本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【组图】今日头条李磊:机器学习问答与新闻创作(2)

时间:2016-12-28 21:41来源:668论坛 作者:本港台直播 点击:
举例来说,我们要解决问题类似于贝克汉姆是在哪出生的?那怎样才能解决这个问题?机器有哪些工具?首先需要一个知识库,知识库通常表达成知识图谱

  举例来说,我们要解决问题类似于贝克汉姆是在哪出生的?那怎样才能解决这个问题?机器有哪些工具?首先需要一个知识库,知识库通常表达成知识图谱的形式。第二我们需要把自然语言问题变成一个可以在知识库上执行的结构化问题。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  这是一个知识库的表达形式,以贝克汉姆为例,他在知识库里面表达成一个节点,有一些属性,比如他的小孩叫什么名字,出生地是哪里,还有一些别名、真名、性别等等,这样的一些节点间关系在数据库里就表达成了三元形式。那怎么样在知识库里面找到对应问题的答案?我们需要把它表达成计算机可以理解的形式,就是类似于数据库里面的SQL查询语句,叫SPARQL,在知识库里面也同样可以用这样的语句把对应的内容找出来,这个执行完以后就可以把答案找出来。

  我们的算法要实现的功能是将给出一句这样的自然语言提问形式自动的变成下面这种计算机可以理解的SPARQL的形式。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  怎么样才能变成这种形式?需要把里面的关键元素找出来,比如出现的实体<DavidBeckham>, 对应的关系是<PlaceOfBirth>。SPARQL查询语句需要的实体和关系要在问句里面找出来。这个关系<PlaceOfBirth>每一个词拆出来都没有在问句里面出现,所以比较难。当然这个问题还有一些其他难度,因为本身语言是比较多样的,比如同样一个问题有多种问法的,问奥巴马总统出生于哪里,也可以换个问法奥巴马总统的出生地在哪儿,这两个不同问句是同一个意思。第二个难点是指代歧义。同样一个名字可能指代不同的对象。

  举个例子,大家都知道打篮球的迈克尔乔丹,但实际上机器学习领域同样有一个迈克尔乔丹,是伯克利的教授。第三个难点是标注样本稀疏。标注的数据非常少,事实非常多。比如在国际通用的一个比较广泛的数据库Freebase里,经过筛选以后有两千万事实,其中标注的问答对大概有十万。我们希望用标注两千万的事实回答十万标注的问题,这是比较难的。

  接下来我会介绍一下用什么样的工具来理解文本中的语义。机器学习能够解决比较好的问题是这样一类有监督的学习,Supervised learning。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  在监督学习的框架里,输入的数据是X,输出是label Y。目的是通过数据能够自动学出来这个从输入数据X到label Y之间的映射函数F。很多机器学习的问题都可以变成这样的形式。比如图像分类,要判断一幅图是猫还是狗?是监督学习的一个例子。

  机器翻译,从中文变到英文同样可以变成一个有监督学习的问题。还有看图说话,给一幅图片,希望机器能自动生成一句自然语言的语句描述这个图片,同样可以变成一个有监督学习的问题。还有语音识别,给一段声音希望把它对应的文字识别出来,同样是有监督学习。有监督的学习的问题,在拥有大量标注数据,有表达能力足够强的模型,都是可以把这个映射关系学出来的。

  那么对于我们自然语言来说,机器要理解它有什么样的挑战?它和图像处理又有什么不同?图像处理过程都可以把图象变成相同大小,用神经网络处理就非常方便。但自然语言有一个特性,句子和句子之间是长度是不一样的,怎样处理这种变长的句子?首先需要表达清楚这个句子里面的词,句子里出现一些实体,以及牵涉到的关系。我们找什么样的方法去表达这些词?有一个简单的方法是在模型里加入记忆单元来处理变长的问题。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

  这里展示一个最简单的循环神经网络,h是它一个简单的记忆单元,每个位置会输入一个字符的向量,结合前一个位置得到的向量一起可以学到当前这个位置的隐向量,这个信息会不断的传递下去,传递的方式和单层的神经网络原理是相同的。

  当然,这个传递的结构可以更复杂,我们知道人记忆的时候是会选择性记忆的。可能过一段时间有些事情就忘记了,有些还记得。类比人的选择性记忆和遗忘的原理,可以构建出一个记忆单元,让机器选择性的记住短期和长期的信息。

  

【j2开奖】今日头条李磊:机器学习问答与新闻创作

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容