以可信模型为例。如何判断一笔交易是否存在账号被盗的风险呢?这里,我们创造性地跨界借鉴了广告CTR预估技术。参考2014年Facebook一篇广告算法的论文中分享的GBDT+逻辑回归的方式,我们使用蚂蚁开发的参数服务器技术,并把逻辑回归独创性的换成了大规模深度学习(GBDT+DNN),并成功使用到风控业务里。因为在风控中有许多特征无法准确判断是否有用,因此通过GBDT产生海量特征之后,再将这些特征用于深度学习模型,进一步提升检测效率。 接下来,我们进一步可以考虑用户、设备和卖家之间的关系,利用Embedding技术,将关系整合形成图网络,再进行监督学习和增强学习。举例来说,我们是如何及时检测出支付宝账号的盗号行为的呢?首先我们会将包括用户、商户,手机、PC计算机、iPad等多个终端设备构成一个图网络。第二,我们可以将整个图关系通过Embedding技术构建深度学习网络。机器学习技术能够以此产生一个隐层表达,这个表达不光涵盖了每个节点自身复杂的特征,并对网络结构进行了编码。相较于此前的Node2vec系统,新系统——Struc2vec算法的预测精度实现了质的飞跃。 案例二:智能客服助理 智能助理和机器人是人工智能领域最热门的话题之一,其中“人机对话”是关键。如果你现在打开支付宝中的“智能客服”页面,你就可以与支付宝人工智能客服“小蚂答”进行互动,感受人工智能客服的有问必答。此外,蚂蚁财富的社区机器人“乐于助人的安娜”是蚂蚁金服智能对话机器人的又一案例,用户直接输入问题或者参与讨论,都可以得到她的回答。她甚至还提供舆情分析等强大功能。 接下来我和大家分别介绍这两个智能客服助理背后的关键技术。 客服机器人算法创新-结合用户行为轨迹的语义匹配模型 当用户向支付宝智能客服提问“如何退款?”时,这个问询是没有上下文的,这也就意味着没有场景。为了很好的理解这句问询背后用户的动机,我们采用了LSTM+DSSM (Long Short-Term Memory + DeepStructured Semantic Model)的算法创新。我们首先通过LSTM对用户行为轨迹做一个编码,通过深度排序模型,结合用户之前的历史操作,系统能够判断用户的诉求更接近“转账到账户转错了怎么办?”,而不是“为什么银行卡转账被退回来了?”。借助这项技术,去年双十一智能客服自助服务的比例高达惊人的97%,目前人工智能客服助理的回答满意度也已经超过了人工客服,系统整体在降低成本的同时服务质量还有了显著的提升。 舆情分析 蚂蚁财富的社区机器人“乐于助人的安娜”的舆情分析能力背后的技术主要包括两大板块。 一、基于金融领域情感知识库的方法。首先对数据进行基于模板的情感单元抽取,之后利用情感知识库计算情感单元的正负情感进行打分,最终汇总所有情感单元的打分情况得到总情感得分。其中,情感单元值得是完整的情感表达单元,而不是单个的情感词。如系统能够准确辨别出“利空出尽”是正面的情感,而“风险上升”是负面情感——尽管这两个词包含多个相反情感的词汇。二、基于深度学习的方法。整套系统采用卷积神经网络(CNN)和张量神经网络(TNN)的组合,包括卷积层、张量层、k-max pooling层、全连接层,最终输出正负情感得分。其中CNN用于抽取结构化局部特征,TNN建模特征间的交互协同。两项技术相结合,最终使得“安娜”的新闻文本舆情分析准确率高达88.4%! 案例三:基于参数服务器的大规模机器学习 在阿里巴巴集团时,atv,我们团队开发了一个大规模机器学习平台,后来在蚂蚁金服我们继续在阿里这个平台添加新算法。这个机器学习平台在整个阿里经济体被广泛使用。大家每天都能接触到的淘宝的广告搜索、手机淘宝推荐、还有2015年双十一的天猫在线实时推荐都是基于这套系统,并取得了非常好的效果。今年,我们又将这套系统在蚂蚁风控中成功应用。目前,在安全可信交易识别模型中,相同覆盖度的情况下,案件召回率已从91% 增加到了98%;这套系统每天可以让一千多万笔交易更快更准地通过风险检查。相关论文已在数据挖掘领域的国际顶级会议KDD 2017和世界互联网领域的顶级会议WWW 2017大会上发出。 我们总结了这个大规模机器学习平台的优势,分别是: 数据与模型并行 鲁棒故障切换 通过同步和异步-迭代 支持100亿特征、1000亿样本、10000亿参数——我们能从海量数据中提取价值并作出预测。 (责任编辑:本港台直播) |