第三方数据延迟取不了款 论爬虫持久战
一、爬虫还是你认识的那只爬虫吗? 1、好爬虫,坏爬虫
“机器人流量再次战胜人类,主宰互联网世界!!!”
据国际知名金融广告服务平台提供商的报告《2018 Robot 》的数据,在互联网上人类流量仅仅占了48.2%,也就是说,一个页面的10000个点击里面,大约5100个来自机器人。在航旅票务等行业,热门数据接口中甚至有超过95% 的流量是来自机器人。
该报告将非人类产生的网络流量统称为“机器人流量”(Bot ),其中的“机器人”就是指自动化执行的程序—也就是我们俗称的“爬虫”,通常用于自动化批量执行特定的任务,比如搜索引擎用来检索网站的爬虫机器人、航空公司网站的刷票占座程序、政府信息公开网站上抓取数据的程序等。
搜索引擎是最早诞生的“ 好爬虫”,它爬取互联网上的所有信息,帮助用户进行快速的信息检索,为用户提升效率的同时也为网站带来流量。行业就此专门定义了.txt文件,成为互联网各方和谐共处的君子协定。然而科技并不总是向善的,大量“变异”的爬虫很快充斥网络,通过模拟正常用户活动和行为,大肆进行数据窃取、资源占用、刷量刷单、薅羊毛等违法违规操作,这些就是我们今天文章的主角-“ 坏爬虫”。
据的报告显示,好爬虫主要分为以下几类:
监控机器人:用于监控网站的可用性和各种在线功能的正常运行;
商业数据抓取:用于商业化的数字营销工具、网站数据统计等,例如Alexa;
搜索引擎爬虫:各大搜索引擎的大量爬虫机器人,用于检索海量信息和网站;
信息流抓取:分布在网站和应用程序中,抓取有用信息展示给用户看,例如微博。
从网络流量占比上来看,坏爬虫一直碾压好爬虫,占了总体流量的28.9%,貌似并不是那么骇人听闻,但请注意,这是“ 平均值”,在票务、电子政务、电商、金融等行业,这个比例远超你的想象。
2、智能化网络机器人
随着商业竞争加剧和AI技术飞速升级,在利益的驱使下,坏爬虫已经“进化”成网络上的一个全新物种:智能化网络机器人,其技术是先进的、意图是邪恶的、模拟人类的手段是高超的、进化的速度是迅猛的,因此给个人用户、商业平台、政府机构和全社会带来的危害也是巨大的。
智能化网络机器人身上通常具有如下几类“DNA”:
批量:爬虫危害性巨大的核心原因,是其能够以快速、持续、大量的模式形成伤害。
高并发:利用云端基础设施或者IDC机器集群,形成极高的并发访问能力。政府开放查询个人传票信息的某网站曾在今年4月被爬的无法对外服务,随后发布公告停机升级;
速度快:基于上述特点,使得爬虫可以在短时间内形成超量的访问,某移动电商平台曾在一夜之间被薅走坊传百亿规模的羊毛;
全天候:可以的工作,秒杀一切996,甚至为了逃避侦测,经常昼伏夜出、凌晨作案;
自动化:借助黑产工具和自动化脚本,爬虫可以在完全无人看守和干预的情况下,模拟大部分人类行为并完成恶意任务。
黑产工具:猫池、手机农场、群控、打码平台等;
Bot脚本:复杂的脚本逻辑使得爬虫不仅限于信息爬取等简单任务,从拖库撞库、登录测试,到图片验证码破解、薅羊毛等所有任务都可以执行。
智能化:黑产“专家”经验注入,AI技术加持,使得爬虫具有了“智慧”。
“反反爬”策略:通过与平台反爬策略的多次对抗,摸索出规律,对反爬规则直接破解或绕行,如面对IP封禁,直接使用IP代理池,且每个IP只用少数几次;针对流量频率侦测,爬虫会通过多源低频的方式进行爬取;
生物行为模拟:通过OCR技术破解简单的数字和文字图片验证码,面对更复杂的滑动验证码,使用工具,结合人类拖动滑块轨迹和速度的模拟,可以成功破解该类行为式验证码;
行为模式多变:不再使用单一逻辑和流程的脚本,而是通过离散算法生成动态脚本进行攻击,让平台难以捕捉其行为规律。
二、技术无罪?数据风暴下的爬虫危机
爬虫技术本身是否违法?业界的普遍共识是:爬虫技术作为互联网时代普遍运用的网络信息搜集技术,本身是技术中立的而不涉及违规违法和犯罪的问题,但是,如果爬虫行为不合规、不正当,则可能涉嫌违法。
这个共识不仅存在于形而上的讨论之中,现实中已经存在多例与爬虫相关的法律诉讼与判决案例,如:被称为大数据引发的不正当竞争第一案-新浪微博诉“脉脉”不正当竞争案,全国首例爬虫行为入罪案-上海晟品网络科技有限公通过爬虫破解北京字节跳动公司的防范措施并非法获取计算机信息系统数据案,百度公司诉北京奇虎公司违反爬虫协议构成不正当竞争案,国家图书馆出版社与北京百度网讯科技有限公司侵害作品信息网络传播权纠纷案,浙江泛亚电子商务有限公司诉北京雅虎网咨询服务有限公司等侵犯著作权纠纷案等。
近期,爬虫话题又被重新推上热议的风口浪尖,其缘起是金融行业的大数据乱象整治。在今年7月份,人民银行科技司司长李伟就在“第四届全球金融科技(北京)峰会”上指出,要纠正部分机构“有技术就滥用、有技术就任性”的乱象。随后从9月份开始,一场规模浩大的监管风暴就席卷了大数据风控行业,在大数据风控行业中以爬虫大量盗取信息数据的做法盛行,而违规使用、买卖数据则是导致隐私数据泄露等一系列问题的根源。
如何从法律层面界定爬虫合法性的边界呢?引用东南大学法学院教授刘艳红的观点:判断爬虫非法与合法,重点是从形式层面进行的。对爬虫行为而言,既要遵循《网络安全法》《个人信息保护法(草案)》等有关信息保护的国家规定所确立的合法性原则,也要结合爬虫技术的协议,将遵循该协议的爬虫行为定性为善意爬取,将违反此协议的诸如破解反爬措施的行为定性为恶意爬取,从而综合判断爬虫行为是否“以其他方法非法获取公民个人信息”。 合法性原则与爬虫协议这一行业规则,即为判断爬虫行为是否非法的形式标准。 于此之外,还要对爬虫行为进行实质的判断,看行为人“以其他方法非法获取公民个人信息”的行为对法益的侵害或威胁是否达到实质可罚的程度。
由上可见,技术本无对错,但爬虫技术“ 滥用”导致的公民个人隐私泄露、企业间不正当竞争等问题,确实形成了侵害和威胁,涉嫌违法。除上述的数据安全风险之外,爬虫滥用还会引发用户身份盗用、交易欺诈、营销欺诈、资源侵占等5大方面的风险。
1、数据安全风险
数据泄露:爬虫从网页和接口两方面盗取数据。
政务信息:公积金、社保医保、工商税务、司法公安、交通海关、互联网政务、企业数据、征信;
隐私信息:身份信息、学历信息、消费记录、借贷记录、航旅记录、互联网行为记录、通话记录/通讯录、医疗挂号、物流信息、房屋车辆等资产信息;
商业信息:航旅票务、酒店连锁、简历招聘、UGC内容、新闻媒体、商品价格/评论、金融行情等。
数据破坏:恶意修改商品价格、商品有效期、有效期等;
数据污染:机器流量数据影响数据统计准确率及用户画像精准度。
2、账户安全风险
身份是一种新的全球货币,这解释了黑产为什么要优先利用宝贵的资源来测试和验证不同行业背景的身份
批量垃圾注册:基于2019年7月1日至2019年9月30日间,金融服务、电子商务、旅游、社交媒体、游戏和娱乐行业的情况,经分析全球有超过13亿笔涵盖账户注册、登录和支付的交易,发现高达五分之一的账户创建都是带有欺诈性的;
账号盗用和接管:拖库撞库、暴力破解、恶意登录(通过社工等方式获得了用户和密码信息,之后到各大平台进行登录尝试,以验证用户是否注册并查看用户在该平台的资产和权益)。
3、交易安全风险
盗转盗刷: 黑产正在将大规模数据泄露中攫取的凭证货币化。全球网络犯罪生态系统的深度连通性远不止销售被盗数据或信息共享,一次攻击是另一次攻击的前兆,利用被泄露的身份和付款凭证获利才是黑产交易欺诈路线图上的终极目标;
欺诈性交易:恶意退单、修改收货地址、积分盗取等。
4、营销/运营安全风险 5、资源安全风险
行业竞争对手间的无序甚至恶意的竞争,导致了平台的服务器资源也成为了被攻击的对象。
资源占用:刚刚过去的双十一期间流量井喷,这是剁手党、黑产、竞争对手共同“狂欢”的时间,黑产和竞争对手利用大流量攻击,恶意占用平台的带宽和计算资源,体验卡顿甚至应用瘫痪会直接导致用户流失,在这样分分钟可能有几十上百亿现金入账的时刻,其造成的损失让人扼腕。
三、爬虫动了谁的蛋糕
根据国际权威机构面向机器人和欺诈相关的报告显示,在全球范围内遭遇恶意机器人及复杂/高级恶意机器人(即专业化程度极高的爬虫)流量攻击的典型行业有: 金融、航旅票务、电商、营销/广告、教育、医疗等。
根据腾讯云和云鼎实验室的安全研究报告显示,在我国机器人流量聚集的TOP5行业分别是: 出行、社交、电商、O2O、公共行政,而出行中尤其以 航旅票务领域遭受爬虫攻击最为严重。
依据机器人的专业程度、对行业的危害程度、危害的行业覆盖率等方面,本文对航旅票务、电子政务、电商等行业进行详细阐述。
1、航旅票务
自动拒绝库存攻击
一种新兴的攻击类型是针对机票预订的自动拒绝库存攻击。对于旅行者来说,被攻击的库存会导致剩余座位的成本增加,或者耗尽低成本航空公司的库存。这迫使消费者考虑购买更昂贵的替代品。对于活动票务,机器人程序可以预订热门活动的票务并以高价出售,从而对好客户的总体体验产生负面影响。
这种现象在激烈的行业竞争下并不显得奇葩,各大航空公司在开通了相同的热门航线后,也会选择通过技术手段“引导”用户选择自家产品,比如通过爬虫占据对手公司大部分票源,造成其无票可售或者仅剩高级仓位票后,乘客自然乖乖送上门。
黄牛抢占特价票
经常出游的用户都知道,找到一些所谓的票务代理往往能够拿到特价机票,美其名曰“尾票”。而这些特价票来自于哪呢?普通用户为什么抢不到呢?这背后其实是黄牛利用航空公司的规则空子和爬虫技术一直将低价票霸占在手中,普通用户再怎么“拼手速”也是抢不到的。
具体来说,航空公司订票流程中有30分钟左右的帐期,即订票后可以延迟支付,在该期间内这张票就不能对外销售了。爬虫就是利用了这一点,算好时间差,抢到票后就开卖,卖不出去就退票并二次抢票。
OTA 平台互爬价格,获取竞争先机
在航空公司提直降代、OTA行业竞争惨烈、网站获客压力增大的背景下,某程、某哪、某牛等OTA平台大打价格战,通过比别的平台更低的票价来吸引客户。而想要做到这一点,就必须实时了解友商的价格并调整自己的定价策略,爬虫在这个时候就粉墨登场了。随着几个大平台企业的合并,曾经硝烟弥漫的OTA互爬大戏暂时告一段落,但新兴的后起之秀又将掀开新的波澜。
积分权益窃取
随着旅游业从线下向数字渠道转移,欺诈也随之转移,关键领域之一就是针对全球在线旅游平台不断提升的营销运营费用这块大蛋糕的自动机器人,这些机器人以会员权益为重点欺诈对象,通过使用盗取的用户身份凭证和支付凭证,将其宝贵的、来之不易的会员积分等权益输送给接管其账户的黑产。
目前,黑产已经到了进行身份凭证变现的阶段,相比于之前批量注册垃圾账户等账户欺诈场景,积分等权益欺诈行为在近些年呈大幅上升趋势。
巨量查询导致航班查询信息服务费激增
查询和订票的比例,即查订比是航空业重要的运营指标。每一次航班信息的查询,航空公司的平台都需要调用中航信的接口,查订比一旦超过规定比例,航空公司就需要向中航信缴纳巨额费用,每年光是花在航班查询上的信息服务成本就高达数千万元甚至数亿元。
查询接口的信息服务费加上服务器资源的费用,如果超过了一定阈值,航空公司即使将一张票卖出去了,那么整体上对其盈利率也是有巨大冲击的。
12306成为海量高并发系统的经典案例
春运是世界上规模最大的人类迁徙活动,春运期间利用抢票软件买票已经成为移动互联网时代的新习惯,抢票平台往往会使用恶意爬虫帮助用户刷票、抢票。2018年春运期间,12306最高峰时段页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。其中的恶意爬虫访问占据了整个出行行业近90%的流量,给12306的运维造成了很大的负担,极大挤占了普通用户的资源和权益。12306在防爬虫、防黄牛、提升服务器吞吐量、改善用户购票体验上投入大量精力,并取得卓越成果。
2、电子政务
据报告显示,电子政务类恶意爬虫流量主要分布在法院文书、知识产权、企业信息、信用信息等常规商业信息领域,医疗挂号数据也是一个备受关注的信息。
2019年的315晚会揭秘了一款“社保掌上通”APP,主持人现场在该APP上输入***号、社保账号、手机号等信息并完成注册后,在未明示收集用户社会保障号、社保查询密码等个人敏感信息的情况下,这些用户敏感数据就被上传到了第三方服务器。这种伪装成官方APP并骗取用户授权,通过API接口进行数据爬取形式在当下移动互联网APP泛滥的背景下是屡见不鲜。
中国裁判文书网是一个记录全国法律案底的政府信息公开网站。据传有一个地下数据挖矿群,群里上千位“虫师”群策群力主攻裁判文书网的爬虫防护策略,甚至一些破解方法还作为开源项目放在了网上,导致该网站一度被爬到暂停对外服务。
为什么有这么多人对这些信息感兴趣呢?我们可以从最近的金融行业大数据风暴背后看到一些端倪。
数据是金融机构进行信贷风控的关键依据。除了自身业务上积累的客户和交易数据外,面向传统金融业务未覆盖的“零征信”、“薄征信”人群,金融机构还需接入人行征信、百行征信等官方数据,以及大量“第三方数据”。为了满足合规等保的要求,部分金融机构快速上马了风控系统并接入了“第三方数据“,忽略了数据合规性和稳定性问题,而这些第三方数据里就包括了法院(失信被执行人、判决等)、公积金、社保、工商注册、税务等信息。
对于提供这些“第三方数据”的所谓“大数据风控公司”来说,低成本获取这些数据的最佳途径就是到电子政务平台上通过接口爬取,进行二次加工和包装,谋取巨额利益。恶意机器人流量极大占用了政府公共平台的资源,影响了正常用户的访问。同时,信息贩卖行为极大侵害了民众权益,也为金融机构的风控系统埋下了隐患。
3、金融
前面提到,金融机构做信贷、消费金融等业务,除了自身历史业务数据可以覆盖“老客户“征信之外,针对“新客户”的征信,其数据主要来自人行征信、百行征信等官方征信机构,而人行征信数据其实只覆盖了3.8亿左右的自然人,覆盖率较低,还有几亿人只有简单的身份数据;百行征信由于成立不久以及各大股东之间博弈,数据量也极其有限。
基于上述背景,部分消金机构、互金平台在“大干快上”的思想驱使下,为了能够快速上业务、见效果,“饮鸩止渴”式的接入了第三方大数据风控公司的服务,甚至大量银行也接入了此类所谓的“助贷产品”,部分头部机构还自建了爬虫团队,专门服务于信贷业务。殊不知,这些把金融机构最核心风控能力的半条命交给“爬虫”的做法,为自己种下了不可逃避的苦果。
不仅公安部门有雷厉风行的行动,监管部门也紧随其后,多地中国人民银行分支机构向辖内银行等金融机构发出与大数据风控公司合作情况的自查和上报通知,中国互联网金融协会也向会员单位下发通知,要求“不与违规收集和使用个人信息的第三方开展数据合作”。
根据亿欧智库的一份报告显示,国内共有近600家大数据风控公司,其中近7成的公司成立于2013至2017年,基本与P2P、消费贷等互金业务的疯狂发展同步崛起。随着公安打击和监管加码,大部分放贷公司和大数据风控公司出现了业务缩紧甚至停摆的现象, 其直接原因就是在利益的驱使下滥用了爬虫技术、滥用了数据,侵害了公众利益:一是未经授权爬取个人及企业数据;二是超越法律及用户隐私协议规定的范围获取数据和使用数据;三是非法将爬取的数据进行存储和倒卖。
作为风控体系基础的(第三方)数据停了,互金/消金公司的业务大受影响,甚至一些银行的业务也受到了轻微影响,这个问题该如何解决?本文建议从四方面入手:
1.加强金融机构自主可控的综合风控体系建设:风控反欺诈之战从来不是某一种技术或方法的单打独斗,而是一场集数据、技术和机制于一体的综合防御战。其中,数据是风控反欺诈体系建设的支持部分,而技术是打赢风控反欺诈之战的重要部分,机制则是反黑灰产实战经验的体现,是优化风控反欺诈效果、提升风控反欺诈能力的重要保障,这三者为相辅相成、相互促进的关系;
2.挖掘自身的数据“石油”,并不断自建场景积累数据,自给自足:金融机构自身拥有大规模、高质量的客户和业务数据,即使不能将数据直接用于新客户的征信,但这些数据作为有标签的数据,也可以进一步深入挖掘和治理,对客户画像刻画、风控模型训练有着极其重要的作用。另外,对于零售金融业务所需要的大量客户个人消费和行为数据,可以向等互联网平台学习,构建大量线上的具有支付、分期等金融属性的场景,比如电商、O2O等,通过运营这些场景积累数据;同时,基于开放银行理念,让大量的生态合作伙伴构建场景,机构输出核心能力,在这个过程中,也可以通过极其丰富和普惠的场景拿到海量数据;
3.继续推动征信国家队的发展壮大:人行征信系统已经推出了第二代,其数据规模和质量得到了大幅提升;百行征信也在推动着互金/消金机构的接入,未来会有更多的数据沉淀下来;
4.重启爬虫,让其在监管和法律的笼子里发展:大数据风控行业长期处于缺乏有效监管的状态,未来需要推动相关监管机制完善,加强金融行业数据采集和使用的治理,健全各类执行层面的标准规则。近期正在广泛征询意见的《个人金融信息(数据)保护试行办法》就是一个好的苗头。
4、电商
电商行业中的典型爬虫危害包括:商品信息爬取、批量注册、欺诈交易、虚假交易、薅羊毛、商家刷单骗补贴、商家刷量/刷信誉、恶意差评等,下面针对两个具体场景进行说明:
欺诈性交易和薅羊毛
传统电商和线下零售商在发展路线上逐渐走向了一统,即线上和线下的融合。为了增强用户体验、提升销售转化,大多数电商平台都简化了购买路径,鼓励消费者创建帐户并存储支付详细信息;同时为了与客户建立密切的关系,电商平台日常会经常性地推出折扣、红包、返利等运营活动。
这吸引了黑产利用爬虫技术窃取用户身份凭证和支付凭证,并随后对这些账户进行接管。根据Shape 公司发布的一份全球身份信息泄露报告显示,电商网站 91% 的登录流量来自黑客的爬虫撞库攻击,这些攻击在“双十一”等大促活动期间更加频繁。因为对于数字经济来说, 身份是真正的货币,这在零售和电商领域是显而易见的。
随后黑产要么利用接管的账户进行欺诈性交易,比如盗刷购物、退单骗取运费险、积分转赠,要么进行批量虚假注册,骗取新用户权益。
商品信息爬取
根据云鼎实验室的报告显示,由于商业模式的差异,爬取商品信息、价格和评价等信息的流量分布为:C2C 类电商平台由于中小卖家众多,商品数量远多于 B2C 类电商,支撑了电商类恶意爬虫近90%流量;B2C 类电商加起来占10%。
这些信息被爬取后会被用于:竞争对手间的价格竞争,通过恶意占库存和恶意退单操作阻碍商家经营,完成用户导流返利套现等,对电商平台与合法商家造成了极坏的影响。
5、社交
社交平台已经成为用户虚拟生活的核心场所,然而大量社交平台对用户隐私和身份安全的保护十分薄弱,这也成为了黑产进行拖库撞库、登录测试的重要试验场。
普通的黑产拿到用户信息后通常执行的是身份凭证变现操作,而别有用心的团体甚至可以将其转化为政治事件。全球最恶劣的数据泄露事件就是英国剑桥分析公司滥用5000万用户数据的事件,其通过数据分析预测用户的喜好和倾向,从而形成干预选举的推送内容,潜移默化中就改变了一个人的政治倾向,甚至影响了整个国家的政治稳定与公平。
四、反爬与反反爬-一场旷日持久的战斗
反爬与反反爬,反反爬与反反反爬……说起来像绕口令一样,其体现的是爬虫江湖的对抗升级,在这场旷日持久的对弈中,双方各自形成了一套武器库,但就像矛盾之争,永远也没有一定的强弱之分,下面我们就从反爬者的视角分析一下当前常见的技术及局限性。
1、常见的反爬手段与局限性分析
2、当前反爬解决方案的弊端
面对肆虐的爬虫,很多安全企业都推出了反爬解决方案, 目标单纯指向了降低爬虫的流量,或者是阻止一切爬虫的攻击,但反爬的终极目标是为了保证业务发展,因此不能忽略业务目标达成、用户体验提升、防控效果可持续性等更为底层和关键的问题。
通过综合分析市场上主流反爬解决方案,总结出了这些传统解决方案的 十一大弊端: