那些你不以为意的个人数据，是如何给你带来致命危险的？

造就第436位讲者方兴

全知科技CEO

现在大家的数据隐私，很多都在被窃取、被泄露，这些窃取数据的手段远远超出我们的认知，它们是如何获得这些数据的？

有一个区域，无论是监管层面，还是网络安全公司，都没有给予应有的重视。所以我要讲的是——不能被忽视的业务应用层的数据安全。

数据已成为获得知识和情报的基础原材料

为什么数据变得这么重要？实际上，我们需要重新理解数据的价值。

以前我们往往把数据看作一种信息的载体，所以谈到数据安全，往往从信息数据载体的角度来谈的。

但是我们认为，数据在未来不仅仅是信息的载体，在人工智能（AI）时代，数据已经变成了一种生产资料。

原来我们是基于信息，在信息之上获得知识与情报。而现在，AI和大数据技术的本质都是通过模型获得知识和情报。未来，数据将变成我们获得知识和情报的最基础的原材料。

实际上“网络黑灰产”（网络黑灰产，指的是电信诈骗、钓鱼网站、木马病毒、黑客勒索等利用网络开展违法犯罪活动的行为。）来窃取我们的数据，很多时候也是把这些数据当做获得重要知识和情报的手段，所以它要获得一切与我们有关的数据。

第一个就是从外部着手，我们有很多暴露在外部的业务的系统，那它们就想办法从这里去获得数据。

针对内部的系统，它可以通过收买内鬼，甚至植入一些定向木马来获取你的数据，然后再通过这些数据去分析、关联你的隐私，最后形成很多关于你的重要信息。

平常你认为并不重要的数据，很可能会给你带来致命的危险。

传统用户ID无形中成为了“骗子的利器”

在电商行业有一个非常经典的诈骗场景，我们称之为”新商家保证金诈骗”。

现在大家都可以开设电商账户，比如在各个平台上面卖货，如果你是一个新商家，那你可能对平台的规则不是很了解。

在电商当中，有一个典型的规则叫库存规则，就是说你上架声明只有十件货，如果这十件货已经被卖完了，再有客户来买你的第十一件货，你可能就卖不出去了，因为平台认为你的货已经卖完，没办法再给用户交付。

但很多新商家不知道这个规则，那骗子就会用这个方式来诈骗。

如果骗子能识别你是新商家，他就会把你的十件货全拍完，不付款。然后再来伪装成一个用户去拍你的第十一件货，这时候这件货就卖不出去。

骗子就找到你的联系方式向你投诉——你看，你的店铺等级太低了，已经被电商平台封掉了，所以你卖不出去货。

这时候这个商家就会很着急，骗子再伪装成电商的客服人员去诈骗这个商家说——你的店铺等级太低，给我交5000块钱保证金，我们就可以提升你的等级。

这边骗子伪装成的用户在催，另一边骗子伪装成的电商客服又在压，很多新商家由于不明就里，有很大的概率会上当受骗。

这种骗局的关键在于能否精准识别出新商家，如果不能识别，那他诈骗成功的概率就非常低，骗子要骗很多人才碰到一个新商家，对他来说就无利可图。但是如果能准确识别，新商家的受骗率可能会高达20%以上。

这当中与数据安全有什么关系呢？

我们以前给用户生成用户ID，99%以上的系统都是用数据库递增字段，12345递增上去，以保证ID不会重复。

那这样会导致一个什么问题呢？

黑灰产只要爬到系统最后的一个用户ID，然后不断地去试探是否生成了一个新ID，就知道这是一个新的商家进来，然后就流水线地开骗，诈骗成功概率就非常高。

我们想过没有，一个用户的ID数据，特别是带有交易的场景，会给用户带来非常大的风险？

用户评价

很多时候你会发现，你认为不重要的数据到了黑灰产手上，可能就会变成它的桥数据。在电商平台上面都有一个基本的功能，就是允许购买者去评论商家货物的好坏。但是这个评论就暴露了用户的购买关系。

对骗子来说呢，他就可以伪装成商家客服人员，以帮助解决商品问题为名实施诈骗。当时我们对用户名做了很多保护，比如打星号做脱敏，但在真正的对抗当中就发现，骗子很多时候还是能把真实的用户给关联起来。

为什么？因为骗子之前就把很多与用户属性相关的数据爬走了，比如说头像、地域信息等等，他们把这些数据相互一关联，还是能把这个人找出来。这时候想要去保护用户的数据就非常困难了。

当你有业务数据在系统上透出的时候，你的访问流量里有大量都是来自爬虫。网上有一个关于互联网真实流量的笑话——我们所有的流量当中60%是来自爬虫，还有30%是社群，剩下10%才是真正的业务流量。

黑灰产会用爬虫去爬走所有能够刺探到的数据。以前打掉的一些黑灰产团队，手上掌握着的数据量极其惊人，有数百亿条个人隐私数据。

其核心手段就是爬取数据，然后对它进行关联，再精准识别到每一个人的身上去。

不需要黑客攻击，插上U盘就能植入木马

第二种方式就是应用的桌面端植入木马，这是很多业内人都不知道的手段。

很多的商业系统都有自己的应用客户端，比如说我们去酒店住店，他们有住店系统，这些都是商家为自己的业务独立开发的一套系统软件。黑灰产就会开发只针对这个特定应用的系统软件的木马，这个木马只篡改这个应用系统的模块。

因为这个业务应用系统软件是商家专有的，只有数千主机的部署量，所有杀毒软件都无法识别这个应用的被篡改，到底是属于正常软件升级还是被植入了木马。所以说他们专门做这种定向性非常强的木马。

做完这个木马之后怎么植入呢？不是我们想象的利用漏洞等对抗手段，不需要，直接派人去现场，通过应聘等方式混进去。

如果企业管理不善，只要趁机把USB硬盘插进某台电脑，就把木马植入了，再用它窃取大量的数据。

我们以前跟这样的木马做了非常艰难的对抗，很多大型的商业应用都有被专门针对的木马。一些互联网企业在安全上投入非常大，也有专业的技术能力去跟黑灰产对抗，但是其他企业，比如酒店的应用，根本就没有能力保护自己的数据不被这种手段所窃取。

个人终端失控、离职员工、内鬼是极大威胁

再就是合作伙伴、离职员工的滥用。在企业内部管理过程中，尤其是有数据合作的情况下，进行数据安全管理是非常的困难的。

比如说某金融企业有很多征信数据会提供给合作伙伴来调用，这是一个共享账号，但是合作伙伴里面又有很多人、很多部门使用这些数据。后来有一个人离职了，但是企业这边不会因为一个员工的离职而修改账号密码，这在管理上很难做到。

这个离职员工知道征信数据非常值钱，他就投身了黑灰产，利用这个账号密码大量窃取涉密的个人征信数据，然后再拿到市场上进行倒卖。

电商领域里的很多数据泄露，就是通过收买内部人员，尤其是收买客服人员来实现的。

因为客服人员在电商领域中属于工资非常低的，而在黑市，一条五分钟之内的个人订单热数据可以卖到十六块钱。因为五分钟之内最容易骗你，对吧？

你刚下了一个单，电话就打过来，说你在我这里买了一个什么东西，这种情况下最容易被骗。

这对掌握了这些订单数据的客服人员是多么大的一个诱惑啊。他们一天接触几百个人，如果卖出这些数据，比他一个月的工资都高。

针对一些不懂技术的员工，黑灰产会从他们手里收买账号cookie，拿到了cookie就可以用这个员工的账号远程登录系统，去获取大量的数据。

一个cookie账号，在黑市上能卖两三万块钱！就是这些手段导致大量的个人隐私数据被窃取。

还有个人终端失控，这个在企业中更难以管理。现在我们很多数据通过手机就可以查看到，但是并不能保证每次都是你的员工在访问。

我们有一个案例，一个员工的女朋友是做猎头的，当他回家之后，女朋友让他洗澡，然后他的女朋友就用他的手机去访问大量内部人员的通讯录数据，再把这些数据倒卖给猎头公司，或者是帮助竞对公司定向挖人来获取利益。

所以我们可以看到，在应用层面存在着非常多的数据风险点，大多数的数据泄露都是发生在应用层，但实际上无论是企业，还是监管层，甚至是网络安全公司，都很少注意到这一块。互联网公司已经开始认识到这个问题，现在也越来越重视。

面对无孔不入的黑灰产，我们该如何防御？

怎么解决这些问题？

目前主要的一些方案，一个就要对所有涉及到有数据接口的数据进行管控。

到底数据在哪里暴露？你在应用层上有哪些接口？有哪些数据的透出？全部梳理起来，这样就能很好的去识别风险。还有第三方的后门，我没有这个接口，为什么出现了这个接口，去找到它的风险。

另一个就是要管理，刚才说到很多窃取数据的方式是把你所有的数据，所有你认为没关系的数据都搞到手。

但是在外部的应用当中有一个很大的问题，就是我们迭代太快了——A版本可能有三十个接口，B版本有三十五个接口，然后A版本当中有二十个没用了，但这二十个没人管，就放在这上面。

对于黑灰产来说这都是它获取数据的一个途径，所以要监控失活的接口，哪些接口已经没什么人用了，就要及时地把它给下线掉，控制这样的数据暴露点，避免被黑产大量的去获取。

再有就是流向的风险。就你的数据到底都往哪里流了，是不是都流到了你希望它去的地方？是不是流向了正确的地点？数据流向的这个主机是不是一个正常的主机？

比如说我们在一个银行发现，大量数据留向了一台机器，后来发现它是一台打印机。当然，不是说这些数据流向打印机是不对的，但是这台打印机明显就是一个风险，它放在一个公开的场合，没有任何人对它进行控制和管理。

但通过监控数据的流向，就可以看到重要的数据都去到哪里，该去的地方是不是对的，是不是采取了相应的保护措施，才能更好地保护相关的数据。

第三就是对数据流动异常、大批量的拉数据、爬虫等风险进行及时的感知，对它进行控制。

我们以前对抗爬虫的很多手段现在越来越难了，大家原来认为爬虫不就是多用了几个IP，把IP封了就好了。但现在专业的爬虫会走移动的3G、4G网络，因为3G、4G的网关后面基本上带着一个区域几十万人的上网端口，他们都用同一个IP，你去封那个IP，可能会误杀掉很多正常的用户。

更专业的爬虫甚至会做一个SDK（软件开发工具包），谁用这个带爬虫的SDK，每个月就能得到五十块钱——用这种办法吸引一大帮正常用户装它。当你想要封掉它的时候，就有一堆真实的用户对你进行反弹。

如果爬虫只针对一个专业的接口，你很难在海量的流量当中将它识别出来。这个时候就要对每个接口的流量进行精细化的识别，才能知道它在爬我这个接口，我该怎样处理它，因为只针对接口封IP,就可以把对正常用户的影响给降下来。

我们更要知道它为什么要爬我这个数据。这样你才会知道数据真正的风险在哪里，你才能对它进行有效的对抗和保护。

现在很多公司的用户ID数据不再用递增的方式去生成，而是全部用随机化生成，通过这种方式对用户进行隐私的保护。还要对人员的行为和合作伙伴的行为进行比较强的审计。

个人用户要对自己的账号进行管理，重要的地方都要用不同的密码，避免一个地方的数据、账密丢失之后，导致你在互联网上所有系统的数据都被暴露出去。

最后，要去做很多的溯源，这是企业内部要做的事情。通过把所有的最关键的数据行为追踪和记录下来，这样就可以做到当发生数据泄露事件时，在一天之内就能定位到可能是谁以及在什么地方把这个数据泄露了。