你离成为人工智能专家,还有多远的距离? 近日,四位来自微软亚洲研究院的AI大咖在中国科技大学进行了一场以“开启智能计算的研究之门”为主题的前沿分享。这四位嘉宾分别是: ● 首席研究员刘铁岩——人工智能的挑战与机遇 ● 首席研究员童欣——数据驱动方法在图形学中的应用 ● 首席研究员曾文军——当机器学习遇到大视频数据 在接下来的一周里,我们会陆续在本账号中发布这四位研究员的演讲视频及精彩内容,希望这些关于前沿技术的思索能够开启属于你的智能计算研究之门,敬请期待吧! 昨天我们发布了刘铁岩博士的演讲——。 第二位与大家分享的是谢幸博士的演讲——用户画像、性格分析与聊天机器人,全文如下(文字内容略有精简)。 我今天讲的题目叫用户画像、性格分析与聊天机器人,看起来这三个词汇好像互不相关,但其实它们有很强的联系。而这三个词也总结了我们微软亚洲研究院社会计算组最近几年所做的一些研究工作。 首先,之前讲了很多大数据,大数据里面有一类很重要,那就是用户产生的大数据,什么叫用户产生的大数据呢,就是我们每天的行为都会被用数字的方式记录下来。比如手机的各种APP,手机上定闹钟等等,这些都会记录下手机上的一些行为。再比如坐出租车、坐公交车,也都有一些记录,这些轨迹可以用在后续的一些改善服务,或者用在一些数据挖掘里面。 再比如用社交网络,在社交网络上,给商家、餐馆或者商店写的评论,打的分,或者给电影、书籍写的评论,这些都会被记录下来,可以用来分析一个人的兴趣爱好,从而做一些推荐。 大家可以想象,当用户数据越来越多的时候,实际上我们可以非常全面地去了解一个人。过去几年我们一直在做用户画像,用户画像可以有很多维度,比如个人属性,年龄性别等。还有性格,性格有很多种分法,实际上我们也是在想怎么通过用户的数据去看用户是什么样的人。当然,有很多人是研究用户兴趣,兴趣直接就可以用来做推荐,做广告。还有,比如用户当前的状态,用户的社交关系,用户未来的计划,我们可以做一些预测。 用户画像可以做很多维度,而每个维度又可以做很多事情。当然,要做这样一个用户数据的研究,首先需要有用户数据,到底从哪里去获取用户数据,大概四年前,我们在中文的社交网络上搜集了一个比较大规模的用户数据集,叫LifeSpec,很多跟我们合作的学校的老师们都已经用这个数据集和我们做过一些联合的研究。 LifeSpec包括比如照片、评论、用户自己填写的个人属性,或者签到过的地点等。但这里强调的是我们试图把同一个用户在不同网站上的数据连接到一起,如果可以联系到一起,那么就可以非常完整地去了解这个人。我们搜集了大概140万个用户的数据集,要求一个用户至少有一个跨网络的数据。 通过这样一个数据集可以做很多以前做不了的事情。比如做一些跨网站的用户画像,看豆瓣上的信息,是不是能猜到用户在微博上的行为,或者通过地点来推测个人属性等。这个以前做是比较困难的,因为这样的数据并不存在,但现在就可以做这样的事情。这个数据大概有5000多万条,有社交关系的有300多万条,还有将近4000万条位置数据。
这个表展示了在不同城市的数据,因为用户填写了很多城市,有了这个数据集,就可以做很多研究。比如做位置预测,位置预测本身并不是一个新的问题。而我们关注的是分析用户,如果是游客或者是本地人,他们有什么样的区别,通过这个数据我们发现了不同,甚至还可以用这些不同来猜测一个用户是不是真正的本地人。因为在中国人口的迁徙是非常多的,这样一个迁徙所带来的人的行为变化,很多时候反应了一些社会问题,所以之前有很多媒体十分关注我们的这个研究,而这还可以做很多下一步的研究。 (责任编辑:本港台直播) |