2017-07-25 14:53来源:微软丹棱街5号 丹棱君有话说:知其然,不如知其所以然。丹棱君带你做完大五人格测试,怎会不给你分享其后的道理呢?下面,学习时间到!让我们有请微软亚洲研究院的谢幸博士为我们带来一段精彩演讲:用户画像、性格分析与聊天机器人。掌声欢迎~ 我今天讲的题目叫用户画像、性格分析与聊天机器人,看起来这三个词汇好像互不相关,但其实它们有很强的联系。而这三个词也总结了我们微软亚洲研究院社会计算组最近几年所做的一些研究工作。 首先,之前讲了很多大数据,大数据里面有一类很重要,那就是用户产生的大数据,什么叫用户产生的大数据呢,就是我们每天的行为都会被用数字的方式记录下来。比如手机的各种 APP,手机上定闹钟等等,这些都会记录下手机上的一些行为。再比如坐出租车、坐公交车,也都有一些记录,这些轨迹可以用在后续的一些改善服务,或者用在一些数据挖掘里面。 再比如用社交网络,在社交网络上,给商家、餐馆或者商店写的评论,打的分,或者给电影、书籍写的评论,这些都会被记录下来,可以用来分析一个人的兴趣爱好,从而做一些推荐。 大家可以想象,当用户数据越来越多的时候,实际上我们可以非常全面地去了解一个人。过去几年我们一直在做用户画像,用户画像可以有很多维度,比如个人属性,年龄性别等。还有性格,性格有很多种分法,实际上我们也是在想怎么通过用户的数据去看用户是什么样的人。当然,有很多人是研究用户兴趣,兴趣直接就可以用来做推荐,做广告。还有,比如用户当前的状态,用户的社交关系,用户未来的计划,我们可以做一些预测。 用户画像可以做很多维度,而每个维度又可以做很多事情。当然,要做这样一个用户数据的研究,首先需要有用户数据,到底从哪里去获取用户数据,大概四年前,我们在中文的社交网络上搜集了一个比较大规模的用户数据集,叫 LifeSpec,很多跟我们合作的学校的老师们都已经用这个数据集和我们做过一些联合的研究。 LifeSpec 包括比如照片、评论、用户自己填写的个人属性,或者签到过的地点等。但这里强调的是我们试图把同一个用户在不同网站上的数据连接到一起,如果可以联系到一起,那么就可以非常完整地去了解这个人。我们搜集了大概 140 万个用户的数据集,要求一个用户至少有一个跨网络的数据。 通过这样一个数据集可以做很多以前做不了的事情。比如做一些跨网站的用户画像,看豆瓣上的信息,是不是能猜到用户在微博上的行为,或者通过地点来推测个人属性等。这个以前做是比较困难的,因为这样的数据并不存在,但现在就可以做这样的事情。这个数据大概有 5000 多万条,有社交关系的有300多万条,还有将近 4000 万条位置数据。 这个表展示了在不同城市的数据,因为用户填写了很多城市,有了这个数据集,就可以做很多研究。比如做位置预测,位置预测本身并不是一个新的问题。而我们关注的是分析用户,如果是游客或者是本地人,他们有什么样的区别,通过这个数据我们发现了不同,甚至还可以用这些不同来猜测一个用户是不是真正的本地人。因为在中国人口的迁徙是非常多的,这样一个迁徙所带来的人的行为变化,很多时候反应了一些社会问题,所以之前有很多媒体十分关注我们的这个研究,而这还可以做很多下一步的研究。 如果有这么多用户的位置数据,我们是不是能够通过用户的位置数据来给用户画像呢?实际上这个工作在之前做的比较少,因为这样的数据并不多,所以没法来评测算法好不好。而我们这个数据集就可以用来做这件事情,我们可以去看这些位置的签到和用户的属性之间到底有什么样的联系。 比如有两个人,第一个在中关村上班,他住在机场附近的别墅,经常出没于美国。第二个人经常在街边的小餐馆吃饭,又经常去图书馆,周末可能还去 KTV,那么第二个人可能更像是一个学生。这样的区别,我们实际上是可以通过数据来发现的。也就是说我们希望通过用户去过的地点,来把用户的属性猜测出来,开奖,比如年龄,性别,甚至教育程度。 (责任编辑:本港台直播) |