说了这么多,word2vec 到底有多神奇呢?我们以中文维基百科作为训练语料库,给大家看一下直观的例子:比如我们想要看一下和「语言学」语义相似性最高的几个词及其概率,得到结果如下:
更有趣的是,如下图,X(KING) – X(QUEEN) ≈ X(MAN) – X(WOMAN),这里 X(w) 表示利用 word2vec 学习得到的单词 w 的词向量。也就是说,词向量能够捕捉到 KING 和 QUEEN 之间、MAN 和 WOMAN 之间某种相同的隐含语义关系。
新金融风控场景的成熟应用案例 事实上,在新金融风控场景中,诸如文本等数据往往蕴含着与违约风险深度关联的深层含义,而通过传统统计、标记甚至正则等人工定义的方式往往都难以充分挖掘其风险价值。如下图所示,通过复杂的词向量模型将文本转化为计算机能够「理解」和计算的词向量表征,并基于深度学习技术对其进行特征提取,我们就可以运用成熟的分类器网络将文本数据与违约风险实现高度的风险挂钩。
诸多大型成熟风控场景中的实践也发现,对于新金融业务形态下越来越多的诸如文本、时序、影像等非结构化数据,通过充分的价值挖掘正显现出对风控效果超出想象的提升。 (责任编辑:本港台直播) |