实际上,我们找了一批志愿者,他们提供了自己的数据,并完成了问卷调查,这样我们便拥有两方面数据。在训练完模型后,新的用户便无需完成用户调查,模型可以自动计算其人格。我们可以来看看计算结果。听起来是不是很抽象?但其实也很具体。例如,我们可以计算用户发表文字和性格间的关系。大五人格有五个维度,我们可以计算出文字和每一个维度间是特别正相关或者特别负相关。例如一个经常在朋友圈写青春和自我的人可能比较外向,而常写失败和面对的用户外向性得分便很低。还有一些用户可能会写时代、社会、成功这些听起来非常正能量的词汇,我们发现这些人尽责性比较高。相反,有些人可能经常写随便、萌萌、气质这些词,我们发现他们尽责性比较低。尽责性低并不是一个贬义词:在这个模型中,在乎结果的人尽责性比较高,在乎过程的人尽责性比较低。这两个极端都有它的优势,并无好坏之分。
我们还通过计算大五人格和用户头像类簇的皮尔逊系数,展示了与大五人格强烈正相关或者负相关的类簇(每个类簇选取了2张图片显示)。这样的计算揭示了一些有趣的现象:比如外向性得分高的用户喜欢使用包含笑脸的头像,而得分低的用户往往在头像中遮挡了面部表情或者使用侧脸;开放性得分高的用户往往使用和朋友在一起的照片作为头像,而开放性得分低的用户的头像很多是自拍照。我们的实验结果表明单单使用头像照片,就能使个体性格预测的准确性到达0.6。我们不仅对每种维度上的行为数据提出了针对性的特征提取策略,而且使用集成学习技术(Ensemble)有效融合了不同维度的行为数据来提升大五人格预测的准确率,使得个体大五人格预测的准确性到达0.75以上。 在理解用户之后,下一步就是如何利用这些知识来帮助机器人产生像人一样的思维。人类希望机器人能实现的重要行为之一就是聊天,微软也提出了“Conversation as a Platform(对话即平台)”的概念,认为未来所有人机界面都将转变为对话界面。 两年前我看过一部电视剧,至今记忆犹新,是英剧《黑镜(Black Mirror)》第二季第一集“be right back”。这部电视剧描述了一家人工智能公司,它可以通过一个人的社交媒体和在线聊天数据合成一个虚拟人,来模仿人物原型的性格特点和他的女友进行对话。这看起来很科幻,但实际上离我们已经并不遥远。2016年10月一篇新闻报道中也提到,来自俄罗斯的创业者Kuyda为了纪念去世的朋友Roman,用他的8000条短信数据训练了一个聊天机器人,并于2016年5月正式发布。
尽管技术已经前进了一大步,但就算是目前最好的聊天机器人也还无法让人感觉他是一个具有稳定性格和情感、活生生的人。这就涉及到如何让机器人的语言和行为更具有个性。 随着社交网络盛行,带有用户标签的语言数据变得容易获取。就像前面提到的新闻报道描述一样,如果我们有足够的关于某个人的数据,就有可能训练出一个和他个性一样的聊天机器人。当然,我们还可以通过一群人,例如儿童、学生、甚至诗人的数据来训练出具有一类人特点的机器人。例如,我们是否可以收集所有现代诗人的数据,用这些数据来训练一个出口成诗的机器人?其实现在也是可以做到的。但是,随着研究的深入,我相信最终我们还会遇到瓶颈,例如到底如何才能让机器人具备更加真实的人类性格与情感,这还是需要和心理学家合作。 其实,最早的聊天机器人Eliza就是一个心理咨询师。大概50多年前,MIT的一位研究员Joseph开发了Eliza,在与用户聊天时,Eliza引入了心理学家罗杰斯提出的个人中心疗法(Person-Centered Therapy),更多强调对话态度,比如尊重与同理心。Eliza其实自己并不主动说新内容,它更多的是一直在引导用户说话尽可能倾诉。看似讨巧的Eliza项目取得了意外的成功,它的效果让当时的用户非常震惊,其中就包括了它的创造者Joseph。其实,Joseph当时给这个项目起名字为ELIZA是有出处的。不知大家是否看过《卖花女》?在这个戏剧里,Eliza处在社会底层。为了进入社会上层社会,她努力学习上层人民用的语言,使她看起来像一个上层人士,但最终伪装被拆穿。Joseph将这个机器人命名为ELIZA,就是希望机器能够伪装成人,但他没想到的是,这个伪装竟还不容易被拆穿。以致于后来产生一个词汇,叫ELIZA效应,即高估了机器人能力的一种心理感觉。ELIZA效应其实现在也很常见,比如击败顶尖高手的AlphaGo一出现,人们便觉得电脑已经具有下围棋的灵感,人工智能马上要超越人类。但其实,AlphaGo背后所有的程序都是人写的。所谓的灵感,所谓的智能,实际最终都是程序实现的。 (责任编辑:本港台直播) |