自动化机器学习算法透明化,反欺诈行业朝扁平化方向发展

影响力度最大、最深远的欺诈事实往往是团伙性犯罪,即有组织的犯罪形态。而有组织的犯罪形态必然表现出有关联的属性。而这,正是无监督学习训练方法与复杂网络特征表达等的用武之地。

近年来,由于各行业业务数字化的发展,金融业务向线上转移,网络欺诈规模随之攀升,欺诈方式朝愈发复杂化的方向演变,抵御欺诈的难度日渐提高。

“基于对欺诈的传统认知所做的方法开始逐渐失效。” DataVisor 创始人兼 CEO 谢映莲说告诉 DeepTech,“现在黑产有时还会用真实用户的轨迹来复制多个类似的真实用户,使得这些欺诈用户具有真实用户的表象。比如欺诈者使用新账号时有时会先做一些正常的、真实的、小的交易,此时该用户已被认为是有过历史数据的正常用户了,然后他会再做一笔大的欺诈交易。通过这样的手段来规避之前的监测策略。”

(来源:DataVisor官网)

根据交付策略的不同,反欺诈公司可分为两大赛道

为了应对变化多端的欺诈手法,从最原始的人工检测,到黑白名单、规则引擎,到深度学习,反欺诈手法也不断演化。

天云大数据 CEO 雷涛认为,根据交付策略的不同,反欺诈公司可分为两大赛道,一类提供咨询服务,一类提供动态反欺诈系统。

其中咨询服务产品是偏静态的,为规则策略型。这其中又可分为两种:

一种是人类专家通过长期的业务经验把大量犯罪现场与欺诈事实的规则提取出来形成反欺诈规则。最典型的规则是“黑名单”。还有一些清晰的、更复杂规则,其落实往往通过决策系统的策划手段来完成,把专家的知识、策略部署到一个决策引擎里。

另一种是引入机器学习的方法,基于历史数据进行离线分析,抽象出规则,给出策略。比如运用传统的回归模型、决策树模型等方法抽象变量,判断权重、特征的价值,形成策略后再部署生产。

而动态反欺诈系统是数据加系统的形态,把专家解放出来,由机器从连续变化的数据中学习。机器学习过程把动态的数据信息反馈到模型的自我调整和曲线上,完成数据驱动的闭环系统,具备自洽、自治的能力,而不仅是通过数据学习给出策略再静态地部署生产。

反欺诈咨询服务和动态反欺诈系统在应用场景上也有很大差异。

前者在流程性的业务里有非常好的效果,比如贷中反欺诈。贷中反欺诈的环境相对封闭,数据资源比较明确(流程中的数据),所以无论是通过策略型经验,还是基于历史数据的机器学习形成静态策略,都可以保证一定的反欺诈效果。

而在动态开放的环境里,前者的策略往往就失效了。比如申请端和输出端业务边界比较开放,而数据资源又非常有限,银行需要频繁更新策略,但这又涉及到组织机制和流程,因此它对银行现有模式是一个挑战。此时,系统加数据的方法更适合这些线上及申请端数据源比较丰富、比较简单的应用场景。

“基于咨询服务交付的策略和基于系统加数据交付的策略有本质的差别。后者实际上是知识生产的全新路径。”天云大数据 CEO 雷涛说。

提供系统解决方案的反欺诈公司的技术手法不尽相同

对于都处于提供动态反欺诈系统赛道的公司,它们的主要目标是应对团伙欺诈。因为团伙欺诈往往是欺诈里影响力度最大、最深远的。同时,由于团伙欺诈内部个体的关联性,这种性质更容易被机器识别与辨认。不过,不同公司采取的解决方案的技术手法不尽相同。

其中,不少企业逐渐开始采用无监督学习的训练方法训练反欺诈模型。DataVisor、黑瞳科技、猛犸反欺诈、360 金融等公司都将无监督机器学习技术视为防范黑产的重要手法。

无监督机器学习通过分析全部用户的行为,从不同维度聚类出相似的用户,以此检测出可疑的用户行为。它检测欺诈效果好的原因在于它并不基于历史数据,并且能自动进行数据挖掘、分析找出黑产的关联特征。

“黑产是一个产业链,产业链总有关联性或相似性。我们事先并不知道一次网络攻击多大规模,它有时很小很隐蔽,有时很大是爆发的。” DataVisor 创始人兼 CEO 谢映莲说,“我们不是在找黑产的某种模式,因为找模式的话,欺诈者一旦改变模式,系统就无法检测了。”

此外,无监督机器学习还可以破解人工智能初创公司数据获取难的难题。“无监督机器学习一开始不需要标签和数据的累加去进行训练,模型是随着数据的积累进行自动建模。” 谢映莲说。

谢映莲预计,2021 年 50% 的反欺诈企业会用到无监督机器学习。

针对团伙性犯罪里个体行为间的关联属性,天云大数据做出的技术突破并不是从有监督还是无监督的训练方法上做出改变,而是采用复杂网络加深度学习的方法在特征表达上做突破。

“我们在复杂网络里抽象了 22 个网络特征函数和传统的变量去做机器学习,这种方法可以非常清晰的把团伙性犯罪识别出来。这是特征升维的有效手段。”天云大数据 CEO 雷涛说,“特征的表达有很多升维的过程。我们更遵从于业务原始的属性,而不是用纯暴力的、算力的方法做升维。”

“更重要的价值是,当网络模型生成后,复杂网络加深度学习可以把当下的环境变化反馈到模型里。而不是等更新、标注数据后再训练。”雷涛说。

搭建赋能系统平台,行业朝扁平透明化方向发展

对于天云大数据和 DataVisor 等公司,打造人工智能平台,做出在互联网、广告、金融等领域通用的反欺诈产品是它们的共同目标。

“与其说它是一个机器学习的工具平台,不如说它是知识管理平台,我们越来越多看到这个趋势。” 雷涛说。

不过,打磨出理想产品的过程中,公司会遇到给各方面的技术挑战。

DataVisor创始人谢映莲指出,目前挑战主要来自两个方面:

一是在算法层面,需要设计出一套高效、大规模、自动化的算法。因为:第一、客户往往有几亿、几十亿用户,这时数据吞吐量要大;第二、筛查不能滞后,需要实时拦截,实时响应;第三、筛查准确率要高,以减少误伤,防止降低正常用户的用户体验。

二是在系统层面,需要设计一套通用的能智能地针对各种情况进行挖掘的系统。因为不同行业(社交、电商、金融、移动应用等)甚至同一行业内部的不同公司遭受到的攻击类型可能都不同,而为每一位客户都建立一套系统的成本很高,所以搭建一套能自动平行地拦截不同攻击的系统将大大降低生产的边际成本。

“自动化机器学习已经可以完全透明化,我们不用再关注算法本身了。”雷涛说,“未来,行业会朝越来越扁平化和透明化的方向发展。”