首页 > 股市要闻 > 财经

大数据倒在2019 史上最严监管已经来临

来源:网络2021-03-26 00:34:18

网络爬虫是指按照一定规则,自动抓取互联网信息的程序。这项技术并无原罪,业内不少公司会通过爬虫技术,将用户在互联网上的数据收集起来,做出更精准的用户风控模型。某数据研究院院长刘志告诉记者,搜索引擎、天眼查、企查查等公司都是用爬虫技术爬取公开数据,在不涉及个人敏感数据的情况下,使用这项技术没有问题。

但对于这些大数据公司来说,他们把爬虫做成了产品,并且“走了两步”。第一步是在面向用户的产品中,让个人用户填写账号密码,从公积金、社保局、信用卡中心等系统中帮用户把里面的信息拿出来,第二步是把这些包含很多个人敏感数据的信息缓存在系统,之后对外提供给高利贷、催收公司等使用。“到第一步没有问题,但到第二步就涉嫌过度采集、违规使用数据,侵犯用户隐私。”刘志说。

这些数据有多大杀伤力?新金融深度曾报道,大数据服务公司聚信立只要获取用户的手机号码和服务码,就可登录各大运营商的系统爬取通话记录的数据,形成“个人用户报告”,包括通话号码、次数、时长等,借款人的通讯信息就会成为借贷机构向借款人及其家人朋友催收的“利器”。这时,这类公司相当于协助了贷款平台的暴力催收。

刘志解释,做风控需要多维度的数据,如果全部通过正规渠道去拿,一方面目前行业内没有太多渠道,另一方面数据成本很高,但通过爬虫去获取,边际成本很低。另外,数据公司通过爬虫拿到的数据颗粒度更细,除了做风控还可以提供给一些公司做营销,获益更大。因此,业内出现一大批违规操作的数据公司。

数据从何而来?

多名业内人士介绍,数据公司的数据来源通常分为四大类:企业自身或其相关公司的数据、爬虫技术爬取数据、相关现金贷公司在用户协议上进行二次授权、通过地下交易非法购买相关信息。

金融行业从业者张丰介绍,对于第一种情况,公信宝推出手机挖矿产品,用户免费使用的同时,需要提供大量个人信息,公司即可借此收集数据;考拉征信属于拉卡拉支付参股公司,其数据来源可能包括在拉卡拉上进行信用卡还款、缴费、金融业务的个人用户数据,以及线下商户经营的数据。

另外,一些合规的企业不少也具备“数据基因”,如前海征信是平安集团旗下全资子公司,其官网显示:前海征信植根于平安集团,探索多样化和创新性的数据采集、存储、处理与分析方式,有着自身独有的优势。

第二种情况是数据公司用爬虫技术去公开网站等地方爬取数据,主要分为司法信息、电商信息、银行卡信息、运营商信息、社交信息、开放数据等几大类。

云鼎实验室2018年发布的《互联网恶意爬虫分析》报告显示,排名前三位的流量目标行业来自出行、电商、社交,运营商和公共行政分别占比4.91%,被爬的频率也较为靠前。