本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:谢幸:让用户画像与数据分析告诉你是什么型的(2)

时间:2017-07-26 00:29来源:香港现场开奖 作者:118开奖 点击:
这里其实我们就关注三点,第一,我们可以知道用户的 移动规律 ,移动规律就是用户每天早上去哪,晚上去哪,周末去哪,平时去哪等,这样的时间规律

这里其实我们就关注三点,第一,我们可以知道用户的移动规律,移动规律就是用户每天早上去哪,晚上去哪,周末去哪,平时去哪等,这样的时间规律对于区分用户很有用。

第二个,是地点的规律性,每个人都有一些常去的地点,大部分人的常去地点是家,另外一个是工作单位。当然,还有经常去的商场、餐馆,通过常去的地点以及时间也可以来对用户进行分类。

我们又加上一些额外的知识——位置知识,就是去过的这些地点,如果只把它当作一个地图上的点来看,信息量太少了,但把这个地图本身的知识加进去,比如前面讲的,住在机场附近,或者工作的地点在中关村等等,这个信息量很大,我们可以用这些信息来帮助做判断。最后把这三方面的信息结合起来,就可以更准确地判断用户的各种属性。

我们之前做了很多用户画像的工作,比如,通过用户的数据,我们能不能进一步知道用户的性格。要了解性格首先要有一些用户,我们能够知道他的性格,又有他的数据,而这件事情在过去很难获取,因为很少有这样规模的数据。

为了做这件事情,首先我们去看到底什么叫性格。性格的分类科学存在于心理学,我们了解到 2000 多年前,古希腊有一个医学家开始研究性格,他认为人体是由四种体液构成,包括血液,开奖,黏液,黑胆汁和黄胆汁,而这四种液体的分布决定了人的性格。他基本上把性格分为两个维度,一个维度是外向、内向,另外一个维度是情绪化和不太容易情绪化。

到了 100 多年前,近代的心理学家们从语言出发来研究人的性格。他们发现如果要研究性格,首先这个性格一定要能用语言来描述,这个叫做词汇学假说。比如说一个人是否非常健谈,是否非常冷静,冷静或者健谈这样的词汇实际上就是一个很概括的性格的一种分类。

通过查看词典,心理学家找到了 4500 个可以描述人性格的词,并在此基础上进一步缩减、归类,总结成五个维度,叫大五人格

大五人格的五个维度,每个维度可以再细分成六个小的维度。要了解一个人,一般来说会先邀请这个人来做问卷调查,之后通过答案去计算他的大五人格是什么。但问卷调查的方式很多时候很主观,有的用户他也不知道自己是不是比较健谈,有的比较外向的人,会谦虚说自己比较内向,所以其实很不准确。

怎么样能做到准确呢?实际上,用观测的方法,比如别人的评价,或者基于很多数据的评价,因为观测和自己的理解是不太一样的。

前面我们讲,我们已经有很多用户数据了,通过这些用户数据其实就可以来观测一个人,通过这些观测再来算出人的性格实际上是可行的。

最近几年有一些这样的工作,2013 年微软和剑桥大学合作的一个工作,当时就通过 Facebook 上的数据集来计算 Facebook 上点赞这个信息和用户性格之间的关系。

我们进一步做了研究,发现用户的数据有很多来源,不光是点赞,还有文本的信息、图像,尤其是用户自己上传的头像,还有喜欢用的表情符号、对话聊天的规律,以及用户自己填写的个人属性,因为这些数据在我们 LifeSpec 数据集里面都有,我们就可以把它联合在一起来做这件事情,而不只用某一个角度的特征。

所以针对每一种类型的数据,我们都用了一些最新的方法来做计算特征,最后用集成学习的方式来得到最后的结果。

举几个例子,针对文本当然可以做很多事情,前面讲了有大五人格,我们可以看这些文本跟每个维度的关系。

外向性高的人喜欢在微博里写青春、自我、突然,而外向性低的人会写面对、特别、失败、做好。我们可以发现他们用的词的确很不一样。

再来看用户的头像,我们发现头像和性格之间也有一定的联系,比如外向性高的人头像会有卡通,或者表情很夸张。外向性低的人,会用下面这些头像,但这只是一些典型的例子,并不是说所有人都用这个头像。这里面其实也可以用到很多人脸识别或者物体识别的技术。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容