本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】讲堂| 谢幸:用户画像、性格分析与聊天机器人(2)

时间:2017-03-25 09:22来源:668论坛 作者:118KJ 点击:
如果有这么多用户的位置数据,我们是不是能够通过用户的位置数据来给用户画像呢?实际上这个工作在之前做的比较少,因为这样的数据并不多,所以没

如果有这么多用户的位置数据,我们是不是能够通过用户的位置数据来给用户画像呢?实际上这个工作在之前做的比较少,因为这样的数据并不多,所以没法来评测算法好不好。而我们这个数据集就可以用来做这件事情,我们可以去看这些位置的签到和用户的属性之间到底有什么样的联系。

比如有两个人,第一个在中关村上班,他住在机场附近的别墅,经常出没于美国。第二个人经常在街边的小餐馆吃饭,又经常去图书馆,周末可能还去KTV,那么第二个人可能更像是一个学生。这样的区别,我们实际上是可以通过数据来发现的。也就是说我们希望通过用户去过的地点,来把用户的属性猜测出来,比如年龄,性别,甚至教育程度。

这里其实我们就关注三点,第一,我们可以知道用户的移动规律,移动规律就是用户每天早上去哪,晚上去哪,周末去哪,平时去哪等,这样的时间规律对于区分用户很有用。

第二个,是地点的规律性,每个人都有一些常去的地点,大部分人的常去地点是家,另外一个是工作单位。当然,还有经常去的商场、餐馆,通过常去的地点以及时间也可以来对用户进行分类。

我们又加上一些额外的知识——位置知识,就是去过的这些地点,如果只把它当作一个地图上的点来看,信息量太少了,但把这个地图本身的知识加进去,比如前面讲的,住在机场附近,或者工作的地点在中关村等等,这个信息量很大,我们可以用这些信息来帮助做判断。最后把这三方面的信息结合起来,就可以更准确地判断用户的各种属性。

我们之前做了很多用户画像的工作,比如,通过用户的数据,我们能不能进一步知道用户的性格。要了解性格首先要有一些用户,我们能够知道他的性格,又有他的数据,而这件事情在过去很难获取,因为很少有这样规模的数据。

为了做这件事情,首先我们去看到底什么叫性格。性格的分类科学存在于心理学,我们了解到2000多年前,古希腊有一个医学家开始研究性格,他认为人体是由四种体液构成,包括血液,黏液,黑胆汁和黄胆汁,而这四种液体的分布决定了人的性格。他基本上把性格分为两个维度,一个维度是外向、内向,另外一个维度是情绪化和不太容易情绪化。

到了100多年前,近代的心理学家们从语言出发来研究人的性格。他们发现如果要研究性格,首先这个性格一定要能用语言来描述,这个叫做词汇学假说。比如说一个人是否非常健谈,是否非常冷静,冷静或者健谈这样的词汇实际上就是一个很概括的性格的一种分类。

通过查看词典,心理学家找到了4500个可以描述人性格的词,并在此基础上进一步缩减、归类,总结成五个维度,叫大五人格

  

报码:【j2开奖】讲堂| 谢幸:用户画像、性格分析与聊天机器人

大五人格的五个维度,每个维度可以再细分成六个小的维度。要了解一个人,一般来说会先邀请这个人来做问卷调查,之后通过答案去计算他的大五人格是什么。但问卷调查的方式很多时候很主观,有的用户他也不知道自己是不是比较健谈,有的比较外向的人,会谦虚说自己比较内向,所以其实很不准确。

怎么样能做到准确呢?实际上,用观测的方法,比如别人的评价,或者基于很多数据的评价,因为观测和自己的理解是不太一样的。

前面我们讲,我们已经有很多用户数据了,通过这些用户数据其实就可以来观测一个人,通过这些观测再来算出人的性格实际上是可行的。

最近几年有一些这样的工作,2013年微软和剑桥大学合作的一个工作,当时就通过Facebook上的数据集来计算Facebook上点赞这个信息和用户性格之间的关系。

我们进一步做了研究,发现用户的数据有很多来源,不光是点赞,还有文本的信息、图像,尤其是用户自己上传的头像,还有喜欢用的表情符号、对话聊天的规律,以及用户自己填写的个人属性,因为这些数据在我们LifeSpec数据集里面都有,我们就可以把它联合在一起来做这件事情,而不只用某一个角度的特征。

所以针对每一种类型的数据,我们都用了一些最新的方法来做计算特征,最后用集成学习的方式来得到最后的结果。

举几个例子,针对文本当然可以做很多事情,前面讲了有大五人格,我们可以看这些文本跟每个维度的关系。

  

报码:【j2开奖】讲堂| 谢幸:用户画像、性格分析与聊天机器人

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容