http://www.fengxiankz.com

主页 > 风险控制 > 正文

「小贷公司大数据风控」专栏 | 用 Word2vec 轻松处理新金融风控场景中的文本类数据

机器人之心刊载所写:唐东城

编者注:本文所写为 CreditX 氪信消费市场总经理唐东城,易懂的介绍了 word2vec 这一最深处学习新技术,及其在国际金融风控各个领域的应用。

在现阶段更为PW的消费市场自然环境下,新金融的客群和范围内更进一步下沉扩大,的业务型态也趋于更为小额分散、高效能和市场化,这对现代风控提出了极大的考验,一方面针对此类客群的高商业价值国际金融统计数据覆盖面积深感降低,另一方面的业务研究员在面对更好非程式设计统计数据时究竟该如何与可能性挂钩也存有诸多疑惑。事实上,这些不同于现代强征信的统计数据在新国际金融风控的业务介寿显现出更加最重要的作用,大量成熟期桥段中的实践也证明了恰当地运用于和发挥其商业价值常常能为总体风控视觉 小贷公司大数据风控效果带来超出想像的提升。

上面以文本统计数据为例,为大家非常简单介绍一下精彩处理和使用这类统计数据的最深处学习新技术 小贷公司大数据风控 word2vec 究竟长啥样,明确是怎么来的,以及在我们国际金融风控桥段中应用的个案。

one hit STL 与 distributed information

问你这样一个难题:如果有几个词语摆在你眼前,你希望你的计算机系统能够理解每个词,你不会采取哪种方法?当然方式有很多种,这里小氪为大家介绍一种稠密表达的方法——one hit STL

这种表示方法解决了我们的难题,但也存在一定缺陷,即每个词语都是一个维空间,如果词语数目急遽增加,就会形成维空间天灾,给我们的仿真步骤造成较小的艰难。这个时候你不会换另外一种想法,仅用 4 个维空间来分别识别性倾向、老年人、未成年、新生儿根基数据,这样也可以表示出所有词语,这种表示方式叫做 distributed information,也称词向量:

  词向量

最深处学习出来以后,由于超越计算困难,词向量基本概念也火了起来。首先大家都有这样一种认知假定,即意即相近的词语,它在文本中出现的上下文也是相似的,理论上,相似的词语拥有相似的词汇。因此,我们可以借助一个词语的上下文,如一个词语与其它词语联合出现的数目,这样一个数目组成的向量,来表示这个词语。当然,如果字词尤其长,我们可以限定视窗,只取该单词前后 n 个单词的词共现数目来表示这个单词。

比如,仅下述三个字词的一个语料:

I like deep Learning.I like NLP.I enjoy modeling.

取视窗宽度 n=1,则下图每一列都是该列单词的词向量。

Word2vec

上面就是我们的主人公 word2vec 上场啦,与以前一般的共现计算有所不同,word2vec 作为今天非主流的词嵌入演算法,主要是通过预报一个视窗宽度为 c 的视窗内每个单词的周围单词机率,来作为这个 小贷公司大数据风控单词的词向量。通过这种方法,把单词映射到一个庞加莱向量内部空间,借以可以计算单词两者之间的相距,即计算上下文关联性。

在 word2vec 中使用重要的两个建模分别是 CBOW 和 Skip-gram 建模,前者是借助词的上下文预报现阶段的单词,后者则是借助现阶段词来预报上下文。

我们先以 CBOW 为例,CBOW 简称是 Continuous Bag-of-Ten model,即倒数的词袋,因为它用倒数内部空间来表示词,而且这些词的顺序非常最重要 小贷公司大数据风控。它的人工神经网络结构如下:

输入层:词 w 的上下文总共 2c 个词的词向量三维层:将输入层的 2c 个向量做求和累加输出层:一个米勒树,其中 小贷公司大数据风控花朵结点是语料中出现过的词,加权是出现的数目

下面的 CBOW 输出层为什么要建成一个米勒树呢?因为我们是要基于军事训练语料得到每一个可能的 w 的机率。明确怎么得到?我们先来看一下这个范例。比如字词为:我,喜欢,观看,阿根廷,足球员,足球赛;W=足球员。

在这个米勒树,词「足球员」走过的方向图上更容易看到,其中非根结点上的θ表示待军事训练的变量向量,也就是要达到这种视觉效果:当在投射层产出了一个新向量 x,那么我通过演算回归式子:

σ(xTθ) = 1/(1+e^(-xTθ))

就可以得出在每一层被分到左结点 (1) 还是右结点 (0) 的机率分别是:

p(d|x,θ) = 1-σ(xTθ)和p(d|x,θ) = σ(xTθ)

那么就有:

p(足球员|Context(足球员)) = ∏ p(d|x,θ)

今天建模早已有了,接着通过语料来军事训练 v(Context(w))、x 和θ就可以进行变更改进,由于字数因素,明确式子仍然赘述。

某种程度的明白,对于 Skip-gram 建模,即 Continuous Skip-gram model,借助已知现阶段词来预报上下文的推理步骤和 小贷公司大数据风控 CBOW 也是略有不同的。

局限性举例来说

说了这么多,word2vec 究竟有多神秘呢?我们以英文维基作为军事训练语料,给大家看一下简单的范例:比如我们想要看一下和「语言学家」上下文关联性最低的几个词及其机率,得到结果如下:

  更有意思的是,如下图,X(ONE) – X(QUEEN) ≈ X(Mercedes-Benz) – X(WOMAN),这里 X(w) 表示借助 word2vec 学习得到的单词 w 的词向量。理论上,词向量能够捕捉 ONE 和 QUEEN 两者之间、Mercedes-Benz 和 WOMAN 两者之间某种完全相同的隐含上下文的关系。

新国际金融风控桥段的成熟期应用个案

事实上,在新国际金融风控桥段中,诸如文本等统计数据常常蕴含与违约可能性最深处关连的深层涵义,而通过现代统计、标示甚至等价等人工界定的方法常常都无法充份挖掘其可能性商业价值。如下图所示,通过简单的词向量建模将文本转化为计算机系统能够「理解」和计算的词向量表征,并基于最深处学习新技术对其进行特征提取,我们就可以运用于成熟期的决策树互联网将文本统计数据与违约可能性实现水平的可能性挂钩。

诸多大型成熟期风控桥段中的实践也发现,对于新业务型态下更加多的诸如文本、逻辑电路、图像等非程式设计统计数据,通过充份的商业价值挖掘正显现出对风控视觉效果超出想像的提升。

商务合作:

微信二维码

在线客服
首页
电话
微信