当然中文自动分词这个事情,百度早就做得非常好了。但是我们的自动分词难度比搜索高很多,因为我们要找出这个词中的关键点。比如说,这个人写了一句话:“诚品书店就像迷宫一样像朝圣。”你怎么匹配呢?你只能跟一个“朝圣的人”匹配“朝圣”,但是他讲的是诚品书店。我们如何识别出这个语句中的关键点?从大江南北跑到苏州看大陆第一家诚品书店开店的人,就变得非常的重要。 更重要是,在我们做短文的关键提取的时候,发现遇到了一个巨大的难点,这个难点远远超过百度,甚至超过今日头条。现在的关键词推荐都是,如果你喜欢看一篇文章,这篇文章里面出现了六次“特朗普”,以后只给你推特朗普的文章就好了。但是,我们发现高频次的推送是没有意义的,低频次的推送才是有价值的。 如果系统上抓取出你喜欢《再次出发》这个电影,我也喜欢。如果我们匹配在一起,我们的共鸣点就变得非常的深层。但是,如果我们把“流行音乐”这个词匹配上,两个人都喜欢流行音乐,这个可能只能爆发出小小的火花,不能持久,也不深刻。不过,假如我们在一个女孩的印象里面抓出了她的很多关键的低频词,和另外一个男孩匹配。当时匹配到了之后,这个女孩说,突然感觉到浑身都在发抖,真的好像找到了自己生命中的另一半一样。 他们到底有哪些点相同呢?第一个,他们都喜欢北欧的后摇风格的音乐。他们每个人都把后摇当成了是一种精神的感受。不但如此,他们都喜欢每天去喂流浪小动物。他们的价值观和性格相符,他们的工作观也一致,他们宁可不要一个月一万五的工作,宁可一个月挣七八千,他们也愿意找一个比较有魅力的上司和愿意让自己犯错的上级。同时,他们还非常孝顺,尽管每个月挣的工资不多,都会跟父母寄六七百块。他们突然发现,原来世界上我还可以找到跟我这么相符的人。 我们如何通过这种主题聚类帮助你选择?比如说,我们不是像百度一样,你搜索“潜水”,我给你一个潜水的结果。你搜索“潜水”,可能给你一个喜欢帆板的人。在宠物标签上,你不是养的拉布拉多,你可能养的是毒蛇,另外一个女孩喜欢养蜥蜴。 有一个80后的工程师,长得特别惨不忍睹,他在所有的社交软件里面都没有找到女性朋友,因为80后就谢顶了。但是在我们这里就有七八个女孩。因为他们都是喜欢养毒虫的,他对蜘蛛交配的时节,生活习性了如指掌。我们通过这个男孩才知道,原来在淘宝上,我们可以买到一个活的蜘蛛,在他生日的时候给他送过去。 每个人在这里面找到与众不同的人,我们会推荐给你意想不到的内容。我们通过算法可以给你推荐你一定会喜欢的那种爱好;你可能会喜欢,但是你自己都没想到会喜欢的那个人。 当然,通过神经网络的学习,我们一步一步地更深入地了解推荐人。当我们的合伙人写了“寒夜客来茶当酒,竹炉汤沸火初灯”时,我们零乱了,我到底推荐茶还是什么?我要找到一个好闺密,他要是“善良”。上帝啊,我怎么推荐一个善良的人?但是我们后来把“善良”分解成了几百个内容,atv,我们可以给你推荐到你心目中的那个善良的人。我们的匿名左滑右滑,可以给你不断地探索你喜欢的内容。我们用了价值观的方式,让人跟人之间相互匹配。我们彼此都有共同的爱好,或者我欣赏你的爱好,或者是我们通过一个事情去延伸话题。我们不断地通过你的人生经历,去深化我们彼此的爱好、去深化这种话题。 如果我们能够把人类的信息透明化,其实是非常容易找到你要找的这个人。这里面我用红楼梦中的一句话,每一个人都像一个奇形怪状的假山石一样,其实在这个世界上一定有另外一个奇形怪状的假山石一样,跟你是吻合的,哪怕你所有的缺点,他内心中都会特别的喜欢甚至是痴迷。不管你事业上或者生活上,能够找到这样的伴侣,我们的人生才能幸福。 (责任编辑:本港台直播) |