12月17日,中国人工智能学会、中国工程院战略咨询中心主办,今日头条、IEEE《计算科学评论》协办的2016机器智能前沿论坛暨2016 BYTECUP国际机器学习竞赛颁奖仪式在中国工程院举办,论坛邀请到今日头条、微软、IBM等业界科学家以及清华大学、北京大学、Santa Fe研究所、Georgia Institute ofTechnology(佐治亚理工)等国内外知名院校学者共同探讨了机器学习的研究现状、前沿创新及应用发展等问题。 今日头条科学家、实验室总监李磊博士受邀发表演讲。李磊毕业于上海交通大学计算机系本科,卡耐基梅隆大学计算机系博士,加州大学伯克利分校博士后研究员。其博士毕业论文获美国计算机学会SIGKDD最佳论文之一。在机器学习、数据挖掘和自然语言理解方面于国际顶级学术会议发表论文30余篇,拥有三项美国技术发明专利。 李磊:谢谢苏中博士的介绍,这次发言的排序非常好。多谢刘康博士刚刚向大家普及了如何用深度神经网络做自动问答和阅读理解。我前半部分的内容和前面的talk有关,是讲怎样做自动问答。后半部分和这个环节的主题语言理解和创作非常相关,主要介绍我们的机器人怎样自动写新闻自动创作。 与前面两位不同,我来自于企业。为什么今日头条会关心语言理解、问答以及创作呢?
今日头条是一个信息分发平台,上面有非常多的内容,我们希望把这些内容推荐给感兴趣的读者。这些内容包括文章也包括视频,甚至可以包括最右边的问答形式。为什么会有问答呢?我们有用户会提出一些问题,有专家会去回答,这些问答同样组成了一些高质量的内容。我们要做的是将它推荐给感兴趣的用户。 那怎么样才能把推荐做好?第一步就是要对内容做一个很好的理解。今日头条本质上是一个人工智能公司,在我们的推荐环节当中,有三个部分和人工智能是非常相关的,包括内容创作,内容分发,以及围绕内容做讨论,提升用户参与度。
怎样才能将这三部分做好呢?通过人工智能技术,需要通过机器学习的技术,来对内容做理解,对用户兴趣做理解,最后才能将这两部分到用户的匹配做好。 今天要讲的话题和创作以及讨论有关。 这是今天我要介绍的问题,我也会简单的介绍Q&A,刘康博士已经介绍的比较详细,我更多的会讲我们有哪些工具可以来处理自然语言的问题。后面我会介绍一个最近的工作CFO系统,我们拿它来做自动问答,可以自动回答对事实类问题。最后我会分享两项创作方面的工作,一个是如何做句子级别的摘要,另一个是如何做自动新闻创作。 刘博士刚刚介绍了整个问答的历史以及解决问答问题的一些方法。我这里要提的问答做了一些限制,是指那种一句话作为问题,一句话回答的那类。不是篇章,也不是针对文章做回答。这样条件下,问题可以分为几类,从简单到难,我列举一下。
最简单的叫事实类问题,比如问美国总统是谁,答案比较简单。第二类是描述性的,比如你要问一个东西它的性质是什么,这个问题可能长一点,可以是一句话一篇文章。还有一类是过程性的,比如一个东西怎么样做,一个系统怎么安装,是按步骤的。第四类需要做一些计算,可能是推理一个比较简单的内容。第五类可能更难,是因果关系,你去问一些原因性的问题。让机器回答它对一个事情有什么看法是非常难的,所以最后一类我觉得可能是目前很难通过机器生成的方法做的很好的。 我们今天要解决的是事实类问题,事实类问题本身还可以由简单到难分成几类。第一类叫简单问题(Simple Question),就是刚刚曹欢欢博士提到的,他们的问答都是比较简单的问题,所有的问题都可以用一个事实回答,只要找到那一事实就可以完成。第二类比较难,可能需要几个事实连起来,才能回答。 第三类是最难的,不仅仅需要多个问题,还要围绕这个问题做一些聚合的计算,比如说在北京奥运会之前开幕式最长奥运的是哪一届?这个问题需要把北京之前的奥运会都找出来,还要把他们开幕式时间找出来,然后计算找出最长的,这是最难的事实类的问题。 (责任编辑:本港台直播) |