把痛点变卖点！金融行业 AI 将开启无监督式学习潮流

许多人工智能专家常说 AI 最适合应用于金融行业。因为金融是历史记录数据最丰富且准确的领域之一，甚至断言金融行业将被 AI 取代。但有个极大的问题是，人工智能无法解释自己的行为，这使得强监管的金融行业很难大规模采用 AI。

当银行考虑采用人工智能时，这个所谓的“黑盒子”问题就会反覆出现，无论是信用评分，贷款还是其它类型业务。

一位长期从事金融风控领域的业内高管直言，传统银行普遍都希望利用社交网站来进行营销，但如果银行不能明确掌握所有客户属性数据，就很容易被合规部门挡下。

金融业最适合AI ？实际程度低于整体平均！

这类限制使得银行在 AI 导入的实际业务上，存在着理想与现实的巨大落差。

根据“麻省理工斯隆管理评论”（MIT Sloan Management Review）与“波士顿顾问集团”（The Boston Consulting Group）于 2017 年所做研究”RESHAPING BUSINESS WITH ARTIFICIAL INTELLIGENCE”，调查人工智能在各行业的被采纳程度。结果金融服务业评估目前 AI 对其产品服务、工作流程的影响程度仅约 10％，甚至低于整体平均 (见下图)。

图说 | 各行业 AI 采用程度：对产品服务影响程度（来源：MIT Sloan Management Review）

图说 | 各行业 AI 采用程度：对工作流程影响程度（来源：MIT Sloan Management Review）

甚至许多情况下，银行即便导入 AI，效果也不如想象神奇。

例如金融机构导入传统规则引擎系统来进行检核其实已行之有年，但缺点是真实金融场景的维度太多，人工定义的规则引擎无法做到很精准判别。为了宁枉勿纵，系统就存在大量误报。因此即使采用规则引擎，对人工审核的要求仍然非常巨大。

“国际上各大金融机构对反洗钱都是投入大量的人力，人工审核部门都非常巨大，”一位业内人士表示，这除了使成本居高不下之外，更大的风险是繁复检核容易使客户不满、甚至失去客户。

业者解释，洗钱行为必须经过司法部门调查才能确立罪责，所以要求要很强的解释性。如果 AI 只能指出某个帐号可疑，却无法自我解释原因时，调查人员就无法据以展开进一步调查。

无监督式学习是金融行业AI 应用突破新方向

而机器学习中的一个晚近分支——无监督式学习（UML），正是一种能够自我解释的 AI。

图说 | 可解释 AI 与今日机器学习 AI 的差异（来源：DARPA）

无监督式学习是机器学习的一种方式，训练时不需要人力给予标签，仅须对机器提供数据输入。因为没有预设标签，无监督式学习机器不会知道其分类结果是否正确，但优点在于它会自动从数据中找出潜在的规则，因此其结果具有较强的可解释性。

Facebook 人工智能负责人、也是 AI 领域最有影响力的专家之一的 Yann LeCun，就多次提倡无监督式学习是 AI 技术的未来。

无监督式学习虽已在学研界是一大主流方向，但在产业界大规模成功应用的例子还并不多，用于金融领域的更是少之又少。但一家由两名华人女性共同在美国硅谷创办的人工智能新创公司 DataVisor，却是最领先将无监督式学习应用在金融领域的公司之一。

DataVisor 以“无监督机器学习”（UML）引擎为核心，结合传统自动规则引擎和全球数据库，致力于解决金融领域的在线欺诈和金融犯罪检测难题，可对每小时新发生的 10 亿数量级的事件进行分析，自动判断并发现潜在的恶意攻击，至今在全球范围内已处理超 6000 亿用户事件和 1.4 亿坏用户，保护全球 40 亿互联网用户，最近并入选《华尔街日报》最新发布的“2018 最值得关注科技公司 Top25”榜单。

DT 君独家专访 DataVisor，剖析无监督机器学习在金融领域的应用优势。联合创始人兼 CEO 谢映莲说明，金融行业数据丰富，但数字化并不完善，这是对所有机器学习模式的一个普遍存在的挑战。而无监督式学习的好处在于对数据缺失的容忍力较高，并不依赖数据的完整性。

图说 | DataVisor 联合创始人兼 CEO 谢映莲（左）、DataVisor CTO 俞舫（右）

“无监督机器学习的优势是可以将海量数据在没有标签的情况下进行检测，且产出的结果具有很强的可解释性。”

谢映莲进一步说明，无监督式学习是机器学习的一个分支，相较于监督式学习和强化学习等其它分支，无监督学习并不需要人力来输入标签，而是主动实时找寻新的模式，进行新的学习。

图说 | 有监督机器学习模型通常单独查看每个账户，类似于每次看这幅画中的一个点。无监督机器学习可分析账户间的关联性，即便个体账户无任何可疑表象，也能从数据中检测到可疑模型。这种方式类似于我们能看到并理解画中的整体图案而不是每一点，即便每个点的颜色和形状都不尽相同。

为何无监督式学习有助于解决人工智能在金融行业应用的痛点呢？

“这跟金融行业自身的发展改变有关”，DataVisor 联合创始人兼 CTO 俞舫解释，“过去金融工具比较单纯，欺诈形式与危害程度都比较有限。但现在网路交易愈来愈频繁，犯罪形式也日新月异，等到有标签后再做机器学习很多时候已经晚了，在反应新型攻击上是非常滞后的。”

而无监督学习可以使海量数据在没有标签的情况下进行检测，把群组性的异常找出来，且产出的结果具有很强的可解释性，甚至能在攻击未发生前就防患于未然。

以国内猖獗的网络黑产主导的数字金融欺诈为例，DataVisor 中国区总经理吴中说明，金融欺诈如要恶意转帐，通常会有个过程。首先攻击者需要创建大量恶意帐号，接着需要“养号”，也就是为帐号制造一些貌似正常的纪录，接下来才能用这些帐号进行欺诈。而传统规则引擎、或有标签的监督式学习，比较难检测出养号早期、貌似正常的恶意帐号。无监督式学习则是会主动把群组性的异常找出来，提供人员进行预判。

吴中观察，正因国内黑产盛行，可以看到金融机构将对人工智能产生更多的需求，会更有意识地去探索。

在数据飞速增长的情况下，国内金融机构势必将进入升级换代的过程。尽管目前仍有其限制，但整个行业已在加速奔向由人工智能驱动的未来。没人能够真正准确预测人工智能下一个突破将何时出现，但更有意识地探索，将是保持领先的关键。