微软还有一些其他的东西是共用的。比如说认知服务,其中的情绪识别,都是从需求出发。还有语音识别和语音合成,在小冰这儿我们叫全双工,它可以是基于文本的对话引擎,然后在语音合成上达到一定的自然度,语音识别延时不能太高,要有预判,小冰的整个语音相关都是技术组合。 总体来说,微软的共有三类技术用在了小冰上面,第一类是积累了多年的黑科技,比如说小冰的读心术;第二类是情感计算等基础类技术;第三类是共同的管道、服务和舞台。 机器之心:在处理一些问答类任务上,小冰用到了哪些知识图谱和知识来源? 李笛:首先,我们有基于微软的「实体引擎」,它跟谷歌的知识图谱不太一样,比他们简单。同时在这个基础上,我们也有基于问答的 BingKnows(必应知识库),是一种聚合。现在我们又加了一层东西叫社交问答,这类知识没有那么深度,但相关性比较好,能够较好的在对话中垫出一层,但目前而言,深度问答还实现不了。 我们还做了 DirectChat(业界首次脱离对话语料库结构,注解学习互联网海量非结构化大数据进行对话),比如说一些网页本身具备知识图谱的源,那我们的重点是把网页里的信息快速的打成 QueryResponse(查询响应),这是一定程度的问答。再比如说把一个很长的文档灌进来,就可以直接把它变成对话的知识,质量没有深度知识那么好,但能够实现。 机器之心:小冰如何解决多轮对话的问题? 李笛:多轮对话的特点是有弹性。我们承认,到今天为止,小冰依然会有前言不搭后语的情况,但这个弹性很迷人。当你的对话足够有情感,用户的容忍程度会高。在真正的对话中双方是对等的,他们都负担着让这个对话,快乐的继续下去地任务。但如果让用户觉得这只是一个和他完成固定程序的工具,他就不会保持对等,他的容忍度一下就降低了。 单轮对话是最短的路径。这就好比是设计一个推荐系统,能一轮就决不使用两轮,最好你什么不问,我推送给你,这是不一样的。 机器之心:那小冰在理解和处理上下文时,主要是考虑了哪些因素? 李笛:这里面有这么几件事: 第一,我们的用户画像,能够基于上下文确定所产生的动机,这个用户画像是跨 Session(阶段)的,我们做了一些产品上面的尝试,比如说去记忆用户一些情感上的变化; 第二,在同一个 Session(阶段)里考量三个因素,第一个因素就是考虑前面的话题,而不是关键词,比如说咱们俩现在都在聊明星赵丽颖这个话题,那赵丽颖就是我们就是上下文的话题,相比较之前基于关键词的方式要好。基于话题的方式可以做到对上下文关联时覆盖长尾。我们现在大概有 36 个 Domain(域),而每个 Domain(域)里又有若干话题。 第三,基于目前热点话题,而不是基于对话的话题。如果这个话题本身是当下互联网或者社会范围内比较热点的事件,那它对我们现在对话的影响就会更大。当一个对话可能有多个话题,你会选你感兴趣的话题。 第四,基于你之前的 Session(阶段),跨一个 Session(阶段)。甚至于我们期望着有一天我们可以基于用户的一生。 三、小冰的数据积累与应用方向 机器之心:小冰过去积累了很多的数据和语料,能介绍一下这方面的进展吗? 李笛:这是我们自己最自豪的一件事情,我们形成了一个叫做自我学习的循环,最开始小冰是一个基于 Q&A 的对话引擎,当时是通过搜索引擎的方式灌进来的,它有点像冷启动。但是随着她和用户的对话,她就形成了很多新模式,包括统计信息,这些东西可以用来优化,甚至于生成新的对话语料,优化模板以生成新的 模板。一年半以前,我们发现把这些 模板存起来再反哺小冰的对话引擎,反哺回来的比例占到 27%,但是后来这 27% 的数据服务了 51% 的实际对话。这就意味着,某种程度上人工智能更多的不是依赖于外部灌入,而是依赖于自我循环去进化。自我进化循环有可能会形成收敛,从两个人的对话过程中吸取了一些知识,然后也可能变成近亲繁殖,所以我们今年推出一项新的技术叫 Direct chat(业界首次脱离对话语料库结构,注解学习互联网海量非结构化大数据进行对话),不再用 Q&A 模板这种方式,而是只有回复,这样就可以不断的添加新知。我们现在拥有 200 亿以上的中文对话,这个是最珍贵的。 机器之心:我们现在有没有一些数据,就是现在小冰的一些用户,它平均使用的频次,或者是每次使用的时长? (责任编辑:本港台直播) |