李笛说:“所以,它没有用量,这不是它的问题,这是它从一开始做的时候就应该知道的事情。我们通过小冰来避免这个问题,我们的对话很长。在对话中,首先是你可以认为它是一个人,是一个我们可以有共同兴趣、可以交流的朋友。在对话的过程中,你忽然有了新的需要,有了新的想法,我们可以再来交流,这是不一样的perspective。” 情感计算里非常重要的事是注重如何激发新的需求,而不是在你已经有了需求以后,非得逼着自己去找聊天机器人完成。李笛说:“那样就是为了技术而技术,为了产品而产品了。所以,无论是国内外的大型企业,还是大量初创企业在虚拟助理的开发上,面临的最主要的问题是这个。” 数据量遥遥领先,小冰已经进入自我进化正循环 “那一刻其实是比较关键的,说明小冰的发展还有自己的迭代主要来源是来自它与实际用户直接对话产生,这就达到了这样(自我进化正循环)的过程了。” 去年1月,小冰曾推出一个名叫”读心术”的功能,一经推出便“刷爆”朋友圈。微软提供的数据显示,“小冰读心术”推出仅仅一周,对话数量已经过亿。李笛说,读心术这个东西实际上是一套推荐系统,比如,你心里想一个名人,或者你心里想一个事物,我通过减枝的方法,我可以猜到你心里想到这个人。它本身是一个封闭的 work garden system,会把“术”从Conversation中 trigger 出来,所以这里面并没有上下文问题。 一周一个亿!微软通过小冰获得的对话数据量着实惊人。李笛对新智元表示:在国内外所有对话式AI的产品中,微软小冰一家的数据超过了谷歌、Facebook、百度等所有公司对话机器人所获得的数据总和,不仅中英文,也包括日语。因此小冰已经完成了某种程度上的原始积累,进入到自我进化正循环中。 所谓的自我进化正循环指的是什么?有什么用? 李笛说,任何一个人工智能系统,都是要从无到有的建立一套可以对话的机制和一系列框架驱动的End to End 用户体验。这里面有两个过程:一个是对话式AI最初的冷启动,还有一个过程是上线之后的快速迭代过程。小冰的冷启动过程是通过搜索引擎完成。 在微软,李笛所领导的技术研发团队除了小冰以外还有必应。一开始,小冰的所有数据都是来自搜索引擎的外部输入。一年之后,第三代小冰发布的前几个星期,已经有51%的数据不是来自外部输入了,而是来自于小冰与用户之间的对话,而它所学习到的不止是数据内容本身,还包括策略和排序。 李笛说:“那一刻其实是比较关键的,说明小冰的发展还有自己的迭代主要来源是来自它与实际用户直接对话产生,这就达到了这样(自我进化正循环)的过程了。” 那么这种“自我进化正循环” 对小冰最大的改变是什么?它让小冰迅速地掌握了多感官的能力,包括一类感官:文本、图像、语音和视频等等。李笛说:“目前为止,在感官的多样性上,即使是离我们最接近的竞争对手,也没有做得这么全的。这当然有我们的技术原因,但最主要的贡献还是我们所积累的直接数据。” 一种感官积累的数据,可以驱动下一种感官。但是具体的实现过程是怎么样的?李笛举了个图像感官的例子,当一个用户把图像发给小冰,小冰可以在某种程度上基于视觉的语义空间和基于文本的语义空间可以做一个对应关系。他说:“你给我发的图像,我的response和你基于这个response的response,都可以变成我接下来这个图像的标注数据,文本的对话可以不断地迭代和训练其他的感官,这就是为什么我们得以不断地推出新的感官的原因。” 微软的语音自然度能做到4.38里面也有这一技术,它不是完全依靠语音数据来训练。 根据李笛的介绍,小冰最基本的冷启动过程就是这样一个过程:先让小冰把整个跟情感、跟对话、人与人之间的关联的经验学到。然后,第二过程就是迭代。具体的对话过程,小冰和 Alphago原理是一致的,但是运用难度比较大。因为有利和不利的判断对AlphaGo 来讲是更容易的:最后赢了就是有利,输了就是不利。但是一个对话是成功或是不成功,就不那么容易判断。他说,小冰不是跟自己下棋,情感必须是两者之间的关系。 (责任编辑:本港台直播) |