在这两个假设的基础上,再结合已有点击模型的合理假设,我们构造了一个部分有序点击模型PSCM。这样,我们就在原有的UBM模型上,把用户点击模型的问题描述得更好、讲得更清楚了。实验也取得了非常好的效果,相关论文获得了SIGIR2015最佳论文提名奖。 3. 欺诈客服电话识别 比如说冰箱坏了,从搜索引擎上搜了一个厂家的客服电话,但是打开的网页是个欺诈网页,打的电话也是个诈骗电话。最后假的厂家客服上门了之后,才发现自己被诈骗了。 这种涉及到搜索引擎的诈骗问题也让很多公司苦恼,甚至还有很多公司因为这个问题被诉讼了。我们当时也觉得这种欺骗电话识别很难做。因为诈骗网页完全可以照抄厂家的官网,只是上面的客服电话不一样。后来调研了一番,我们发现这个问题实际上是可以被描述清楚的。这里面有哪些挑战呢?有的网站并不属于我们定义的垃圾网页范畴,所以采用垃圾网页识别的方法并不能很好的解决这个问题。 后来经过我们调查发现,欺诈网站都有一个特点就是一个诈骗电话会伪装成多个不同客服,可能在这个网页是一个厂家的,另一个网页是另一个厂家的。我们就试图用这个特征去定义欺诈客服电话。 为此我们标记了一些真正的客服电话作为“正面”种子,定义了一些欺骗客服电话作为“负面”种子,我们定义了电话的共现关系图。比如说和官方客服共现的一般是可信赖的电话,和欺诈电话共现的号码一般是欺诈电话。通过在电话的共现关系图中迭代传播“正面”电话和“负面”电话,最终识别出欺诈客服电话,取得了很好的结果。 五、总结 简单地总结一下,我们通过这些实例总结了人工智能到底能够做什么,得出来一个结论。现阶段所谓的人工智能就是通过定义加算法求解问题。关键是要想办法把目前还不能解决的问题是否可以从新的角度进行定义,无论是依靠特征,或者依靠数据,或者依靠假设,想办法把问题描述清楚,这之后再配以相应的算法,这样的话问题就可能得以解决。对于我们工作中解决不好的问题,就朝着这个方向努力去做。这就是我今天的思想,希望能够大家带来一点启发。谢谢。 本文经马少平教授授权,由明略数据整理发布。如需转载,请联系明略数据公众号后台(微信号:Minglamp_BigData) 原文编辑:赵奕、吕诚成 之前量子位还转发过马少平老师的另一篇文章:《那些年,我们做过的AI》 (责任编辑:本港台直播) |