然而,对海量文本信息进行分析并非易事,简单的统计工具、或者标准的分类和主题模型,可能会遇到巨大的挑战。比如,当我们要分析的数据包含千万量级的词表时,相应的分类模型体量可能过大,而使训练时间非常长,甚至长达百年;当我们要对文本数据进行超细粒度的主题分析时,比如要分辨出上百万个不同类型的主题,则可能需要上千台服务器,运行几周到几个月的时间才能完成任务。 但这些看似不可能完成的任务,在微软亚洲研究院的面前,却变得可行。微软拥有能够处理千万词表的新型循环神经网络LightRNN,以及可以分析百万主题的人工智能模型LightLDA,再通过微软的Multiverso参数服务器进行分布式部署,我们就可以用一个只有几十台服务器的小型计算机集群,对海量文本数据进行超细粒度的实时分析,在信息获取和利用方面获得巨大优势。 除了这些原始数据外,在投资时,我们常常需要根据各种金融事件、以及金融实体之间的逻辑关系进行推理。这时就会遇到两个问题,首先,如何构建一个可靠的、信息丰富的金融知识图谱;第二,当我们拥有巨大体量的金融知识图谱时,如何进行高效的分析和推理。 微软亚洲研究院拥有目前世界上最高效的知识图谱索引和分析的开源引擎,有了这种引擎的支持,我们就可以对巨大体量的知识图谱,进行实时的分析推理,使很多隐藏的高阶因果关系浮出水面,给投资经理的决策插上理性的翅膀。 依据前面的人工智能技术构建投资方案之后,投资经理还需要根据市场的反馈不断地对投资方案进行调整。这个过程中,如何对市场的反馈快速响应,以及如何对金融市场其他参与者的行为进行精准建模,将成为致胜的利器。在这些方面,微软亚洲研究院独树一帜的前瞻性决策技术,如对偶增强学习和博弈机器学习,将会帮助投资者获得巨大的先发优势。 以上我们提到的人工智能算法都需要强大计算平台作为支撑,微软研究院拥有目前世界上效率最高的人工智能平台——CNTK(微软认知服务工具包)。在多项第三方评测中,CNTK不管是在单机的训练效率,还是集群的并行训练效率上都表现突出,力拔头筹。
把前面提到的来自微软研究院的优势算法和人工智能平台与华夏基金投研团队的领域知识相结合,我们将共同打造一个由人工智能驱动的全新的金融投资框架。这个框架里面会包含很多新的组成部分,比如端到端的因子提取与动态复合技术,基于金融知识图谱的推理模型,以及基于增强学习和博弈机器学习的自动化交易和资产配置策略等等。当然,想要在这些课题上取得突破性进展还需要深度的研究。比如金融市场环境开放,存在信息缺失、隐藏等问题,将给建模造成困难;市场规律动态变化,非平稳,将对人工智能模型的预测能力提出挑战;金融市场存在多方复杂博弈,且规模较大,将增加建模和分析的难度;黑天鹅等重要事件的小概率本质,不易用大数据、大样本方法预测;高频交易数据量大、实时性强,对人工智能计算平台将提出额外需求,等等。不过我们对于攻克这些难题持乐观态度,而这些挑战的存在也正凸显了我们和华夏基金进行战略合作研究的深远意义。
● 谢幸:用户画像与聊天机器人,打造个性化金融服务 站在华夏基金的角度,我们可以完成一个全新金融投资框架的构建,那么站在用户的角度,结合人工智能技术与金融,我们又能创造出哪些个性化的金融服务呢? 微软亚洲研究院社会计算组资深研究员谢幸博士分享了微软亚洲研究院在用户画像、性格分析和聊天机器人方面的最新进展,以及这些技术如何助力打造未来个性化的金融服务。
微软亚洲研究院资深研究员谢幸博士 用户画像就是根据用户每天在各类社交软件上产生的大数据合集,给用户打造一个更加个性化的环境和服务。而微软希望能够通过用户画像,更好地预测用户的风险偏好,理解用户的理财目标以及用户对资金的需求,以此帮助金融机构给用户设计更好的产品和服务。 (责任编辑:本港台直播) |