本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:「极客公开课·Live」5 分钟带你复习自动聊天系统(2)

时间:2017-07-04 20:46来源:本港台现场报码 作者:j2开奖直播 点击:
第二,对于短文本来说,相关性的计算非常难,难到什么程度?这两句话通常来说,所有 NLP 方向的同学,你们计算一下两个文本的关联。对于短文本来说

第二,对于短文本来说,相关性的计算非常难,难到什么程度?这两句话通常来说,所有 NLP 方向的同学,你们计算一下两个文本的关联。对于短文本来说,你会发现,首先这个词极少,一个几十万维的词语空间、特征空间,一句话里面其实只能包含 10 个以下的词语,那这 10 个以下的词语,两句话,很有可能没有任何一个词是重复的。所以,你做这个事情,就会算出一个 0 出来,那这两句话完全不相关,显然是不对的。

我下面举个例子,比如他说,你今天心情怎么样?有人很文艺地说,就像外面的天一样阴沉。这是一个很好的恢复,如果我们用传统的方法是做不到这个事情的,做相关性度量是没有办法的。

还有一种,ThinkPad 是最好的笔记本吗?他说,反正我是小黑的铁粉。这里面实际上存在一个关联,ThinkPad 和小黑的关系,是不是能事先拿到。

所以说,对于短文本的语义相关,这个事情本身是一个非常大的难题。现在也没有得到完美的解决。

接下来又说,我们在最开始初始的时候,一穷二百的状态下的时候,我们希望从哪些研究里面,学到知识得到经验,来构建一个聊天机器人?至少有这几个方向,虽然说词语贡献没有什么用,但是词语贡献的信息还是要有的,所以,最简单的还是贡献的统计。详解请见知乎 Live

码报:「极客公开课·Live」5 分钟带你复习自动聊天系统

聊天机器人的两种技术路线,打一个简单的比方,我们要爬一座山,这作山有两条路,喜马拉雅山也是这样,一个好走,一个不好走。但是看起来好走,也不是说谁都可以上去,可能里面还是有坑,只是说没有发现,或者真正走的时候,才会发现,这条路未必那么容易,看起来很难的路,应该是很难了,否则的话,大家都走那条路了。但是沿途可能会有很美的风景,我们收获的东西会很多。

但是,对于聊天来说,我认为从学术上讲,不管从那一条路上走,其实你都只是在山脚下,你连山腰都没有上去,我们所有的工作其实都是很基础的,当然可能会有一些所谓的技术发展很好的公司,可能实际上也需要在这个方向上再仔细地打磨一下。

它的技术路线,第一:基于检索的技术路线,我之前已经铺垫地非常多了,如果我有足够的问答对,聊天的对,一来一回,我建一个索引,那我们要做的是什么?来一个 query 的话,我做好问答库里面问题的匹配,但是这个匹配其实不容易,两句话未必完全相同,这是文本相似的问题,不是相关。做完匹配以后,我们会捞到大量的侯选答案,然后我们把侯选答案再跟实际的 query 做相关的计算,然后把最相关的东西排序,得到最相关的回复,然后返回给用户。就是这么简单,很容易想到,其实说白了就是一个检索系统,其实跟现在的搜索引擎的技术框架是比较相似的。这里面用到的方法其实是跟搜索引擎会差得也有一点多,但是框架上会非常一致。

码报:「极客公开课·Live」5 分钟带你复习自动聊天系统

码报:「极客公开课·Live」5 分钟带你复习自动聊天系统

这里面给出了一个这个图的细化的结构,其实这是一个三层的逻辑架构。

第一层,我们要解决的是一个问题来了以后,我们约定一下这里面的一些词语,用户输入 query,我手里的是 question 和 reply,我们首先要计算的是 query 和 question 的关系,找到一些跟用户的 query 最相关的,最相似的,找到了这些问题之后,我再通过这些问题找到这些问题存的答案。

第二层,要进行 query 到 reply 的相关性的排序或者分类,当然分类模型也可以做排序。在这两步过程中,我们要考虑的是单轮的语义相关性,多轮的语义相关性,以及在主题上的相关性,以保证聊天顺畅。但是可以想见,不管是第一层的匹配也好,第二层的排序也好,以致于多轮的关联、建模也好,其实都非常难,都没有完全解决。

第三层,假如我知道一些用户的个人信息,以及一些其他方面的非文本相关层面的需求,我要对这个答案,再进行第三层的排序,以使得我们可以考虑到用户的 profile 信息,其他的特征。整个这一套的系统构建得益于下面这些数据源,公开和访问的数据源。首先要爬下来,然后做清洗,建成一个语料库。详解请见知乎 Live

两种技术框架的对比

码报:「极客公开课·Live」5 分钟带你复习自动聊天系统

下面我们对比一下这两种技术框架,基于检索的技术框架,它的好处是什么呢?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容