比如说哈利波特上过哪些学校,大家都知道Hogwarts魔法学校,Harry Potter上魔法学校之前还上过一个小学,j2直播,我们系统也可以找出来。我们也比较了一下以前的方法在公开数据集上的效果,用了脸书做的公开数据集,有十万个问答的问题,我们拿7万来做训练,另外的3万来做校验和测试。这里比较了几个方法,绿色的线是微软提出的一套方法,j2直播,56%的准确率,中间蓝色是脸书提出的方法,叫MemoryNetwork,准确率是62.9%,我们CFO是75.7%,所以提升是非常大的。
为什么我们的方法可以在这样的问题上得到这么大的提升?因为之前刘康博士也提到了脸书发明方法非常强,那什么原因我们做得更好?我们分析了一下它问题的难度,这里有一张图。 怎么去理解这个图呢?整个图是讲在不同难度问题上的准确率,黄色部分是相对比较简单的问题,你问一个问句,里面能找出一些侯选,几乎是唯一的,这样你去查询的时候就非常容易回答。蓝色部分是可能出现多个实体匹配的情况,所以候选比较多,回答的时候就会出错。我们看了最简单的方法,我之前提到的N-gram以及改进过的N-gram方法,蓝色的部分都非常大,有大量的问题比较难回答,有多个侯选的情况,黄色部分非常小,通过我们的方法可以把黄色部分大大提高比例,我们可以把大部分的问题由难变成简单,而简单的问题我们系统是可以回答的非常好的,或者说任何的系统都可以做得非常好,所以我们最大的贡献是通过这个方法方法把一部分难的问题变成了简单的问题,让整个系统的效果得到了很大的提升。 最后介绍一下我们在自动创作、自动摘要方面做的工作。我们平台有很多文章,可能很多人没有时间读完整篇长文章,这对于文章自动生成摘要就有很大的需求。我们希望机器把长文章自动总结出来,变成一句话或者两句话的间断的摘要,自动推送给需要的用户。我们通过一个自动摘要的技术,在里面选句子,用了神经网络自动选出文章中最重要、最精华的句子再把这些句子选出来作为整个文章的摘要。
另外,我们希望能够从数据里自动生成一个新闻。Xiaomingbot是我们在奥运会期间做的新闻自动生成机器人。八月份里约奥运会开始到结束自动创作了四百多篇文章,我们对比过它与我们平台上记者写的体育新闻的阅读率,发现这两个数字是接近的,甚至有时还高于记者文章的阅读率。当然我们做新闻机器人的目的并不是取代新闻记者,而是帮助作者更快的创作出更高质量的内容。
这个新闻创作机器人有什么特点?可以看到它既能生成一些短的新闻,比如说这里羽毛球比赛是比较短的,会配上一个图,也能生成一些较长的比赛过程的描述,比如右边是女足比赛的一个非常详细的描述。
我们对照以前或者同期其他单位做的新闻机器人,比如华盛顿邮报也在推特上面做过新闻机器人,可以自动播报奥运会。相比而言我们的特点是能够生成短的和长的,华盛顿邮报几乎都是短新闻。并且我们可以自动配图,长新闻可以根据比赛进程的时间线非常详细的表述。我们不只用到了传统的模板生成的技术,还用了机器学习技术,自动的生成一些句子。 最后我来总结一下,我们也在用自然语言解决自动问答的问题,非常关键的一步就是需要选择正确的向量化表示方法。在Q&A的问题当中,通过类型type vector来表示实体方法非常有效。第二个是问答里面中心实体的识别,这里用模型做筛选证明是非常有效的。第三,语言生成是一个非常基础的问题,我们如果可以把这个问题解决好,自然语音的理解方面可能还会有更大的突破,我们很多方法可以把难问题变简单,如果能够设计成模型自动的做这一步,最后得到的效果会更好。 (责任编辑:本港台直播) |