本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:清华马少平教授详解:人工智能能做什么?(6)

时间:2017-08-06 01:11来源:118图库 作者:j2开奖直播 点击:
但是识别这种垃圾网站非常难。因为作弊手段层出不穷,只能“一事一议”的进行处理。比如发现了一种作弊方法,我们提取了规则,说清了这个垃圾网站

但是识别这种垃圾网站非常难。因为作弊手段层出不穷,只能“一事一议”的进行处理。比如发现了一种作弊方法,我们提取了规则,说清了这个垃圾网站的特征,可能它稍微修改一下,我们就识别不到了。而且这种方法很慢,也很没有效率,很多时候用户点开了垃圾网站就直接关掉了,根本懒得反馈。后来我们通过了另一种思路,就是分析用户打开网页之后的行为。如果是秒关,那很有可能这是一个与搜索内容无关的垃圾网站。或者某个网站的所有打开来源都是搜索引擎,几乎没有人通过访问URL打开网页。我们共总结了20多个类似的特征,用于描述垃圾网站。我们就通过这些特征去描述、去给垃圾网站下定义,再结合一些统计学习的算法,差不多就解决了垃圾网站的识别问题,实现了作弊手段无关的垃圾网站识别。

2. 用户点击模型

另外一个例子,就是用户点击模型。这其实是一个“前人栽树,后人乘凉”的工作,把搜索引擎上面的用户反馈情况记录下来分析用户需求。有一个简单的想法点击量越高越有可能是用户想要找的东西。

报码:清华马少平教授详解:人工智能能做什么?

但是完全按照点击量来判断是不行的,因为网页在搜索引擎的不同位置是影响这个结果的,从而影响客户需求分析的准确性。

报码:清华马少平教授详解:人工智能能做什么?

用户有可能就点击前几个,然后随手滚轮一滚动就点击到第九、十个去了,我们要做的工作就是把这个影响消除掉。我们找一个简单的例子来示意,比如这个CKIM会议的搜索结果,比如今年是2009年,今年的CKIM会议网站新出来,如果直接按点击量排序,在搜索引擎上搜索,2008年的会议肯定会被排序到前面。

报码:清华马少平教授详解:人工智能能做什么?

但是实际上大多数用户想找的肯定是最新的会议上的消息。但是搜索点击模型的目的是对文档的相关性进行估计以及对于用户的点击进行预测。那么上面的这些因素都会影响用户点击模型的分析。我们要做的是消除这种影响,帮助搜索引擎更好地排序。这件事情比较复杂,因为每个用户的点击情况都不太一样,所以我们需要引入一些假设把这个问题说清楚。

报码:清华马少平教授详解:人工智能能做什么?

最早的点击模型叫做单一点击假设,他就认为用户输入后,用眼睛去找有关结果,然后只去点击一个他认为的最有关的结果。显然,这个假设不符合我们正常的使用习惯,我们往往要点击很多次。很快就有人提出了多点击假设。就是第一次点击之后,用户还回到搜索界面,以一个固定的概率去检验下面的条目。但是其实,用户向下面检验的概率并不是固定的,它还受很多因素的影响。

后来有人提出了UBM模型,这个模型目前也被大量使用着。

报码:清华马少平教授详解:人工智能能做什么?

它的分析方法就是用户会不会继续向下检验是和当前文档的位置有关,也和前次被点击文档的距离有关。虽然这个模型效果已经不错了,但是里面仍然存在着问题。比如说这个模型是建立在“顺序浏览”假设上的。“顺序浏览”假设是指用户从上到下按顺序浏览,不考虑有“回访”的情况。

报码:清华马少平教授详解:人工智能能做什么?

比如说用户点击了第一条、第三条然后是第五条。但是经过我们的统计,甚至是用“眼动仪”监测眼睛在看搜索引擎界面时的位置,我们得出结论:实际使用中“回访”的行为是大量存在的。往往用户点击第一条后直接点击第五条,然后可能会最后再看看第二条的内容。所以这种情况是必须考虑的。因此我们需要对这种情况建立进一步的假设。为此我们引入了两个假设,一个是局部有序性假设,也就是在两次点击之间,人眼不是从上往下看、就是从下往上看,人眼的观察浏览是有顺序的。这个就是局部有序性。

报码:清华马少平教授详解:人工智能能做什么?

报码:清华马少平教授详解:人工智能能做什么?

还有一个假设叫做阶跃检验假设,人眼浏览的时候不一定是按照搜索引擎的结果一条一条顺序看的,可能会出现中间跳跃的可能。这些都是符合我们眼动仪实验结果的。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容