大数据爬虫黑产调查:数百元网购数据采集器,各行业信息订制可查

时间:2019-08-19 来源:www.thebusinessemailmarketingguide.com

4ee0b11dcf0dc45e1245b1193e2a7ea6.jpeg

“全国各省市300多个行业数据集”,“Python爬虫程序数据采集与编写软件,专业资深人士,定制服务”.在二手交易平台上,有很多所谓的“大”数据“收集信息。服务提供商声称能够进行“专业爬虫”,“大数据收集,数据处理,数据分析”,以及销售数据信息收集器的商家,以及购买软件“无限”数据以帮助介绍“客户”。/P>非法抓取用户数据的黑色产业链 - “专业资深人士”编写爬虫软件,提供软件定制服务,以及黑人生产帮派购买软件,分批生成“大数据”信息然后出售。业内专家指出,非法抓取数据存在法律风险。在没有平台授权的情况下抓取数据信息可能构成侵权,非法甚至犯罪行为。

公开销售的“大数据”信息

在线贷款,教育和培训信息,淘宝记录.“定制”数据可以在各个行业进行检查

在二手交易平台上,“大数据信息收集”,“数据爬行”,“数据爬行”等关键词被用作在平台上搜索的关键词。有许多卖家提供所谓的“大数据”收集信息服务。这些卖家通常使用“数据爬虫”,“数据收集”,“数据分析”标志,声称是“专业爬虫”,“大数据收集,数据处理”。

2649a4e54c87608791a34ac0dbc30a35.jpeg

二手交易平台上的许多商家出售所谓的“大数据”信息收集服务,称为“专业爬虫”和“数据分析与处理”。

“全国各省市的300多个行业数据收集”,二手平台卖家表示。根据商品介绍办公室列出的行业类别,数据收集涵盖美容院,餐饮,娱乐休闲,教育培训,亲子关怀,各种学校,医疗,物流和快递,建材装饰,汽车数码等行业。价格是49元/市/行业,离开邮箱后,收集到的数据可以在当晚11点之前发送到邮箱。

这些所谓的可抓取“大数据”消息是什么?二手平台上的卖家告诉南都记者,他们可以在网站平台上进行涵盖各种网页数据,公共网站,市场58,连锁家居,饥饿和其他用户信息的数据收集,以及卖家说他们可以收集。淘宝买家,商家信息“,”WD最新的实时应用数据“(注:WD是”净贷款“的拼音缩写)。

根据数据收集的难度,价格不同。以上告诉南都记者,数据采集服务“基本版100,普通版200,高级版300,如果需要制作客户端软件,则增加成本。”根据交易平台数据,该产品在不久的将来已被浏览超过3,000次。许多网友都在产品下留言询问是否有任何信息,如唯品会,更多买家,58名城市申请人,社区所有者等。这意味着可以提供。简历有“420万份,主要是中高端用户”,对于特定的业务称为“私人聊天”。

南都记者发现,这些所谓的“大数据”信息收集服务卖家有个人,有些是团队导向的运营工作室,有些卖家说这类数据收集业内业务需求量大,是“微商”在线微信社区营销基本数据“可用于准确地促进和扩展客户和商品营销。

判决书网络判断文件。

以前,许多用户报告说,裁判纸网站的网站速度慢,经常出现故障,页面无法频繁显示。今年2月,最高人民法院在其官方网站上回复说,出现这个问题的原因是以前有很多技术。公司通过不受限制的并发访问爬虫系统获得了对裁判文件数据的非法访问,导致网站负载过大。针对这一问题,“最高法案”指出,自2018年7月以来,在线系统软件的防攀爬功能已经以验证码的形式实施。

知名招聘网站上的数十份简历打包并以每张1.5元的价格出售。

不久前,在关注的情况下,志莲招募的“幽灵”私下卖掉了16万份简历。据了解,此案涉及超过160,000份简历。南都记者近日发现,网上业务简历“生意”也很受欢迎,简历“黑市”数万份简历都打包出售,每张只需1.5元。

“志联招聘简历,全国各地都有”,“长期出售58收全国简历价格优惠”,“北京全国简历下载,主要是下载直连,未来,还可以在集团内交换简历”。在QQ群中发布,在二手交易平台上,有许多帖子在招聘网站上公开出售个人简历,如志联招聘,58城市和BOSS直接就业。在qq组中只搜索“CV销售”和“CV下载”字样,您可以找到许多qq组,这些组销售着名的招聘网站的简历信息,如58 City,Zhilian Recruitment等。最大的组有成千上万的人。

3ca0eec63a6590a0a3b20677c777c573.jpeg

有商家在QQ上销售简历信息收集器,可以输出同一城市和市场的58个简历数据。

南都记者在一个名为“58简历国家交流集团”的名称中看到,该集团的人员在知名招聘网站的简历上发布了实时的第一手和第二手资料。一些卖家还在集团内交换了资源。根据该集团的信息,该集团拥有2000多名成员,高峰期的在线用户数超过700。

45fff2a151b4e533a75c13f357a39cb8.jpeg

在二手交易平台上,卖家声称自己是“专业老手”,可以编写各种爬行动物软件来提供定制的数据订阅服务。

随后,南方记者随机联系了二手平台上的卖家出售简历。另一方说他手上有成千上万的简历。 “58城市,志联招聘,和Jiji.com”,每份简历售价1.5元。 “全国随机,没有指定区域”,购买价格也可以打折。

南都记者了解到,根据地区和行业类别,这些公开销售的个人信息和明显标价的价格是不同的。在二手平台上,卖出了Zhilian招聘简历的卖家告诉Nandu“北广州更贵”和“北京每六张简历”。除了出售简历信息外,企业账户还可以出售或转售作为商品。一些卖家告诉记者,购买公司账户可以直接下载招聘网站上求职者提交的简历信息。 “区域产业有最终决定权。”

当记者要求购买简历的人拿这些个人信息做某事时,卖家提高了警惕并回答说“无论你拿什么”,并不耐烦地说“不要告诉我这个”,那么记者被拉入黑名单。

非法生成非法抓取数据信息

“专业资深人士”编写了爬虫软件,每个行业的数据信息都是“按需”的

在线销售“大数据”信息是如此令人尴尬,这些所谓的“大数据”信息从何而来?它是怎么泄露出去的? Zhilian收集了16万份“Ghosts”简历的案例私下揭开了数据泄密的冰山一角。

非法抓取用户数据的黑色产业链 - “专业资深人士”编写爬虫软件,提供软件定制服务,黑人生产帮派购买软件批量生成数据然后出售。

所谓的爬虫是一种常见的数据捕获技术,也称为网络蜘蛛,网络机器人,它根据某些规则从互联网上自动提取网络信息的程序或脚本。在当前的信息网络环境中,使用爬虫软件和其他技术手段来抓取因特网数据是普遍的。同时,为了保护自己的数据不被抓取,许多公司也制定了反爬行策略。

“Python爬虫程序数据采集和编写软件,专业资深人士,定制服务”,卖家对二手平台的介绍,它提供了各种数据采集软件编写定制服务,软件采集数据可以涵盖携程春秋航空等旅游网,美国天猫京东打了很多,微博知道豆瓣等电子商务的社交平台。

卖家告诉南都记者,软件开发团队“由一群精通软件开发程序员组成”,可以根据需要提供各类数据爬行软件定制服务,并可以进行“各种加密网站的破解登陆”。平台信息显示卖家在不久的将来完成了许多交易,用户反馈是“提高狂欢”。

47d801548a766fb8cfc0aa03c9a7983b.jpeg

据说卖方销售的“智能云”软件从网络上的多个行业收集大数据信息。

“网络数据订阅云代收购京东淘宝业主财务等行业信息采集,拍照软件”,卖家对二手平台的介绍。根据卖家提供的软件演示视频,这是一款名为“智能云”的软件,售价980元,可收集的数据信息涵盖地图商家,搜索引擎,企业信息,业主信息等网络大数据。该软件具有多种功能界面,如导入微信地址簿,QQ群组成员提取,微信群发,微信营销,QQ营销,论坛营销等。据卖方介绍,该软件可用于各行业的大数据转移,实现精准营销。

简历收藏家700元/套“无限”指南,有商家可以介绍“顾客”

除了提供信息定制服务外,南都记者还发现,还有网上商家销售所谓的简历信息收集者,可以自动抓取用户在知名招聘网站上的简历信息。

简历信息,信息“全网实时同步”。 “姓名,电话,工作要求,家庭住址,全职兼职”,还发送了视频截图的软件操作。

“我今天生产了7,000,赚了550”。卖方告诉Nandu记者,他使用该软件从招聘网站上导出个人简历信息,然后在网上出售。 “一手是1.5元,二手是0.3元。”卖方还把票打包给了记者。该软件“可以赚钱”,“有用”,“质量”,“客户每天都找我”,并说如果他买了这个软件,他还可以帮助介绍“客户”。

南都记者注意到,商家出售的上述简历信息收集主要针对58个城市,2017年,还打破了58个简历收集者的网上销售,导致网站上大量用户的个人简历泄露。许多销售简历信息收集者的卖家告诉南都记者,简历收藏家“规模小,招聘人数少”。

那么,这种类型的简历信息收集器如何批量抓取用户在招聘网站上的简历?业内一些专家分析了简历信息收集者的“隐藏策略”。黑帮使用同一城市的58个接口分批获取用户的简历ID和加密的用户ID信息,然后通过另一个界面。用户包括诸如姓名的真实信息泄露,并且最终58的微商店程序最终可以通过用户ID获得用户的电话号码。

并且无法实时导出网站的有效数据。

34f06477c13f3884d2945f1f566d548b.jpeg

卖方向记者发送的简历信息收集器演示页面。

收集的数据包括个人信息,如姓名,手机号码,学术信息,工作年限和预期月薪。

非法爬行动物窃取了“大数据”信息并成为企业运营

爬行动物窃取用户信息然后卖出利润的现象在业内很普遍

去年全国网络办公室发布的《2017年数字中国建设发展报告》显示,中国的大数据产业在2014 - 2017年继续快速增长。 2017年,中国大数据产业规模达到4700亿元,同比增长30%。据估计,2020年中国大数据市场的产值将超过1万亿。

看似无限的大数据行业,大数据查杀,隐私安全,非法抓取用户信息等背后的混乱,早已暴露出来。数据运营行业的一些人指出,通过爬行动物和其他技术窃取用户信息然后销售利润的现象在业界非常普遍。

公民信息披露。参与此案的三家公司瑞智华盛通过与网络运营商的合作获得了与运营商登录的机会,并通过技术手段查获了网络用户的登录cookie数据,然后非法登录淘宝网网络用户微博等账户获取前端公民的个人信息,并实施强制粉碎,订单爬行等行为。从利润来看,公司年收入超过3000万元。

互联网安全专家指出,从运营商级别进行的流量劫持和清理相当于从源头丢失数据。下游互联网公司的安全保护能力不再强大。

去年8月,南渡和阿里安全发布的《2018网络黑灰产治理研究报告》显示,2017年中国网络安全行业规模超过450亿元,而黑灰产量已达近1000亿元,用户信息披露,网络黑客和通信问题如信息欺诈仍然频繁。

在产业链中,利用各种手段通过买卖方式抓取,窃取或获取个人信息,成为黑白利益的主要途径,从而导致电信欺诈,敲诈勒索等下游非法犯罪。信息安全和财产安全构成严重威胁,成为侵蚀互联网经济正常运转的癌症。据不完全统计,自2015年初以来,互联网黑灰业的员工人数已突破40万。

被称为中国最大的简历大数据公司乔达科技被调查

今年4月,乔达科技非法获取计算机信息系统数据的案件被北京警方破获引起关注。作为中国最大的简历大数据公司,它专注于招聘工具软件和大数据分析服务。它拥有一系列人力资源大数据产品,包括Joe Da Zhao,Miao Zhao.com和爱情合作伙伴。一轮和B轮融资,雇主包括李开复的创新工场,中信产业基金等。

根据工商信息,乔达科技成立于2014年7月,注册资金1050万元。其业务范围包括技术开发,技术服务和数据处理。今年4月22日,北京市海淀区公安局公布了乔达科技在官方微信公众账号上非法获取计算机信息系统数据的最新进展。

据警方透露,2018年10月,一家互联网公司报告说,其员工在互联网上发现有人出售涉嫌公司用户信息的数据。经过初步调查,警方判断该公司的用户信息数据可能被非法盗窃。通过检索,梳理和分析公司的服务器日志,最初恢复了整个数据窃取过程。

警方发现,乔达科技公司通过未经授权使用大量代理IP地址和伪造设备识别来绕过公司的服务器保护策略,并恶意窃取存储在服务器上的用户数据。在窃取过程中,由于传输的数据量过大,服务器中断服务数十次,影响了数千万用户的正常访问,给公司带来了严重的经济损失。

据新华社报道,该公司非法抓取用户数据,数量巨大,利润巨大。这些简历信息和其他数据用于教育,培训,保险,招聘等行业,为乔达科技带来了大量收入。据公开数据显示,2017年公司年收入4.11亿元,净利润1.86亿元。乔达科技产品合伙人刘波在接受采访时也表示,该公司的商业模式是“获取简历,数据实现”。目前,乔达科技股份有限公司法人王某某等36人已被检察院依法逮捕。

非法抓取数据存在法律风险

在没有平台授权的情况下抓取数据可能构成侵权,非法甚至犯罪行为

在通过上述所谓的“大数据”软件提供信息收集服务现象的调查中,南都记者注意到,一些卖家在他们的业务介绍中自我认证无罪称为“非法违规”,软件外包提供和数据抓取和其他服务仅抓取各种网页和应用发布的“可见”数据。

所以,根据大数据收集者的说法,如果你抓取网页等公共数据,这种行为真的合情合理吗?

事实上,非法获取数据存在许多法律风险。尽管使用爬虫软件和其他技术手段来抓取互联网数据的做法很普遍,但许多公司已经设置了反爬行策略来保护自己的数据不被抓取。当网络爬虫非法捕获数据信息时,可能构成的侵权,非法甚至犯罪行为主要包括对计算机信息系统安全类别的危害,非法获取公民个人信息类别以及侵犯知识产权。

近年来,企业间数据爬行引起的各种数据权竞争案件层出不穷。例如,新浪v。抓住新浪微博用户信息案例,淘宝诉美景不公平竞争案件等,对于非法抓取企业数据,法律也更倾向于保护经营者的权利。

规定任何个人或组织不得从事危害网络安全的活动,如“窃取网络数据”,不得提供专门设计用于入侵网络的程序或工具,干扰正常的网络功能和保护措施,并窃取网络数据和其他危险网络安全活动。用户数据被盗。最近,该公司的法定代表人员周某某等七名法人因涉嫌非法获取计算机信息系统数据而被检察机关起诉。

鉴于裁判文件的数据是由爬行动物出售的,北京市社会组织法律调解中心副主席张新新认为,判决文件网站上的金额是免费的公共资源,未经最高人民法院授权。销售裁判文件数据的商家将构成侵权。

撰稿:南都记者王琦