发贴还是发帖 脉脉声明「未向第三方提供发帖用户信息」,但拼多多还是拿到了员工过往发帖内容,脉脉的匿名区真的安全吗?
匿名区不安全,顶不住机器人爬虫加大数据分析,一个看似无害的匿名ID会在强力分析下显形。
一、脉脉是不是被拖库撞库了?是不是这个不安全?
脉脉已经明确未向第三方提供发贴用户信息,然后应该也没有被黑,黑了现在出来说话的就应该是公安而不是公司。
二、拼多多是不是监控了员工设备?
可能性也不大,通过路由器和交换机的许多都是HTTPS流量,数据包的重组分析代价太大。视频监控更不可能,难道进行实时视频文本分析?
三、是拼多多很可能用了爬虫,通过爬虫抓数据加统计搞定人员定位
从拼多多的官方回应可以看出,人力资源部门表达的是根据照片拍摄地点的同事反馈信息找到了发帖者,发帖员工被辞退并非因为发布了照片,而是因为公司事后调查发现他曾经发布带有显著恶意的“极端言论”,违反了员工手册中双方约定的行为规范,才决定与其解约。
也就是说,拼多多说是同事猜出来的拍摄人员,猫了个咪的,这我是不信的。
在拼多多人力资源部的声明中,有三张事件相关的图片。
1、匿名员工发布的文字“第二位拼多多猛士倒下了”和救护车的配图,账号显示有ID“JgD+”。
2、这位匿名员工以往的所谓“极端言论”截图,账号同样显示有ID“JgD+”。
大家打开脉脉测试,点击任意匿名用户后面的ID,都可以显示出具体的ID。但是,普通人无法在使用脉脉时根据ID看到匿名用户的个人信息和历史言论。
这一点脉脉早先在声明中也进行了解释:
“在用户信息管理上严格遵循国家相关法律法规,不以任何形式向任何第三方提供职言区发帖用户信息,且对于个人信息进行极为严密和完备的安全保障。为了保障发帖安全,职言通过非对称加密技术对用户的发布身份进行了严格的加密处理,即使是脉脉内部工作人员,也无法获取任何个人相关信息。”
好了,既然没有撞库拖库,人家没有给拼多多提供任何个人相关信息,那么拼多多给员工定罪的所谓“极端言论”的证据,有很大可能是拼多多用“爬虫”扒取了脉脉的数据。
从拼多多发布的信息来看,对脉脉使用爬虫的可能性更大。或许是为了证明这些历史发言都来自于同一匿名员工,拼多多在声明截图中特意把统一的ID“JgD+”标记出来。但在很多业内人士看来,最后一张截图的更是坐实了拼多多对脉脉粗暴使用爬虫的证据。
爬虫的原理就是模拟用户向网页或APP发送网络请求,接收请求响应,然后按照一定的规则,自动的从响应中提取出需要的数据。拼多多这位匿名员工的唯一ID“JgD+”是可以外显的,他的历史发言虽然散落在脉脉信息海洋的各个角落中,但毫无疑问也是外显的。对爬虫而言,数据的提取几乎没有任何难度。
在拼多多的声明的截图中,有用户名、ID、评论、时间和相关链接几个统计维度,这些虽然用人工也能梳理出来,但脉脉这个量级的数据,用人肉一页一页地搜索、查找、校准、剔除,恐怕这两天的时间还真是不够用。
早在拼多多声明发布之前,拼多多一离职的安全主管就于1月10日在微博上发布了《脉脉匿名区安全使用指南》中提到了同一个ID不要发表太多个人信息关联内容,原因是会被爬虫分析。微博文章的配图中还提到,拼多多曾经在10月到12月间对脉脉发起过大规模职言爬虫。
四、 拼多多对脉脉使用爬虫是否构成违法?
关于爬虫是否违法,业界讨论和争议一直也很多,我不专业,没有办法确定。
《网络安全法》里没有对“爬取网络公开信息被认定为违法”的条款,但还有下列三种情况,使用爬虫不但会违法还可能构成犯罪:
1、爬虫规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”;
2、爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”;
3、爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。
我暂时还不太清楚脉脉反爬虫的安全设置,也无法完全确定拼多多到底是如何获取匿名员工既往言论。但按照事件目前的发展事态,脉脉其实完全可以拿着拼多多发布的情况说明向警方报案。
如果官方调查事实成立,结局可以参考去年1月全国首例“爬虫”技术侵入计算机系统犯罪案的判例:上海某网络科技有限公司主要负责人员经共谋,于2016年至2017年间采用“爬虫”技术非法抓取北京某网络技术有限公司服务器中存储的视频数据。法院以非法获取计算机信息系统数据罪分别判处被告单位罚金20万元,判处被告人四人一年至九个月不等的有期徒刑,并处罚金。
所以我的专栏文章写了自己的看法:网络匿名是不是真匿名?恐怕真不是,有心人查一下你,就露馅了。细思恐极啊!