刚才讲的是问答的机器人,最后要讲的是可以自动写新闻的机器人,名叫XiaomingBot。在奥运会之前开发的机器人,16天的时间写了450篇新闻,围绕乒乓球、羽毛球、足球、网球四个类别写 。在短短16天内,读者总计一百万。后面通过数据分析发现,在同一时间由专业体育记者所写的体育新闻阅读率和XiaomingBot写出的新闻阅读率差不多,甚至XiaomingBot新闻阅读率会更高一些。
XiaomingBot 既可以成比较短讯,也可以生成比较长的文章。比如女足的新闻比较长,描述的比赛过程比较详细。相对之前研究的新闻机器人来对比,我们的XiaomingBot有一些不同的特点:比如说我们非常快,XiaomingBot在比赛结束的两秒钟之内就可以从生成到发布到读者读到,整个过程时间非常短,从创作到分发到自动推荐整个流程全都是机器来完成的,这也是我们今日头条这个平台的优势。
第二个特点是短长结合,既可以生成短内容,也可以形成长报道。另外XiaomingBot可以图文结合,实时加上一些比赛的图片,而且我们对比赛的描述符合比赛的时间线,尤其对于足球比赛的描述。我们的生成结合了文法生成技术以及机器学习,内容读起来更像是专业记者所写。
深度学习最大挑战:标签数据与可扩展性
对话、问答、新闻生成的机器人,是不是我们的机器人已经无所不能?不是。那现在机器人还有哪些不足,还有哪些做不到?通过对话机器人非常容易发现,我们说一些话会让机器人前言不搭后语;而我们的问答机器人虽然可以在知识类的问题上达到75.7%的准确率,但是它还不能处理更通用的问题,比如除了知识类以外,我们还有问原理性的、问步骤性的、以及问深度解释类的问题。如果你问他人生的意义是什么,很难回答你。我们对体育类的新闻生成是比较好的,但是如果把它推广到所有品类做成非常通用的文本生成机器人还是有很长的路要走。为什么机器人会有这些局限? 首先一开始提到深度学习或者机器学习在解决有监督学习的问题是非常非常有效的,但是同时它的有效也带来局限。它的有效是因为现在有大量的数据有复杂的模型,但恰恰是因为需要大量的数据,这对目前深度学习方法造成了一个很大局限,就是需要非常大的标注好的数据,而通常标注这些数据所需要的代价是非常非常大的。 其次,局限还在于通用性或者可扩展性。我们的问答机器人可以回答知识类问题,但很难再去回答其它的问题,这就是通用性和可扩展性的局限。怎么实现通用的人工智能或者说实现通用人工智能我们还有哪些问题哪些大的挑战需要去解决?这里分享三个需要我们人工智能学者、机器学习专家去研究的技术问题。 实现通用人工智能的三大挑战
第一个问题,机器学习模型的可解释性。深度学习模型在很多问题上做得非常好,可是有时候我们会发现模型做得好,但其实并不知道它为什么做得好。或者我们的模型犯错了,但我们并不知道它为什么犯错,这就是可解释性的问题。我们的机器学习还需要更多地去研究一些模型一些方法,让它能够对自己的行为做一些预测和分析、解释,当它做得不好的时候,它知道自己为什么做得不好,就像人一样,能够分析自己的错误。这是第一点。 (责任编辑:本港台直播) |