数据爬虫行为如何合规_工具

前言

由于网络数据爬取行为具有高效检索、批量复制且成本低廉的特征，现已成为许多企业获取数据资源的方式。也正因如此，一旦爬取的数据设计他人权益时，企业将面临诸多法律风险。本文将从数据爬取行为的相关概述、数据爬取相关立法规定，结合数据爬取行为近期典型案例，探讨数据爬取行为的合规要点。

一、数据爬取行为概述

数据爬取行为是指利用网络爬虫或者类似方式，根据所设定的关键词、取样对象等规则，自动地抓取万维网信息的程序或者脚本，并对抓取结果进行大规模复制的行为。

使用爬虫爬取数据的过程当中，能否把握合法边界是关系企业生死存亡的问题。近些年大数据、人工智能的广泛使用，对各种数据的刚性需求，使数据行业游走在“灰色边缘”。面对网络数据安全的“强监管”态势，做好数据合规、数据风控刻不容缓。当前我国并没有相关法律法规对数据爬取行为进行专门规制，而是根据爬取数据的不同“质量”，主要通过《中华人民共和国著作权法》（以下简称“《著作权法》）、《中华人民共和国反不正当竞争法》（以下简称“《反不正当竞争法》”）、《中华人民共和国刑法》（以下简称“《刑法”》）等现有法律法规进行规制。

二、数据爬取相关法律责任梳理

（一）承担刑事责任

1、非法侵入计算机信息系统罪

《刑法》第285条第1款规定了“非法侵入计算机信息系统罪”，违反国家规定，侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的，处三年以下有期徒刑或者拘役。

典型案例：李某等非法侵入计算机信息系统罪(2018)川3424刑初169号

本案中，被告人李某使用“爬虫”软件，大量爬取全国各地及凉山州公安局交警支队车管所公告的车牌放号信息，之后使用软件采用多线程提交、批量刷单、验证码自动识别等方式，突破系统安全保护措施，将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统，进行对比，并根据反馈情况自动记录未注册车牌号，建立全国未注册车牌号数据库。之后编写客户端查询软件，由李某通过QQ、淘宝、微信等方式，以300-3000元每月的价格，分省市贩卖数据库查阅权限。

法院认为，被告人李文某为牟取私利，违法国家规定，侵入国家事务领域的计算机信息系统，被告人的行为均已构成非法侵入计算机信息系统罪。

2、非法获取计算机信息系统数据罪

《刑法》第285条第2款规定如下，违反国家规定，侵入前款规定以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。同时，《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用刑事案件应用法律若干问题的解释》第1条对“情节严重”作出了具体的规定：“非法获取计算机信息系统数据或者非法控制计算机信息系统，具有下列情形之一的，应当认定为刑法第二百八十五条第二款规定的“情节严重”：（一）获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息十组以上的；（二）获取第（一）项以外的身份认证信息五百组以上的；（三）非法控制计算机信息系统二十台以上的；（四）违法所得五千元以上或者造成经济损失一万元以上的；（五）其他情节严重的情形。”

典型案例：李某、王某等非法获取计算机信息系统数据、非法控制计算机系统案（2021）沪0104刑初148号

本案中，益采公司在未经淘宝（中国）软件有限公司授权许可的情况下，经李某授意，益采公司部门负责人被告人王某、高某等人分工合作，以使用IP代理、“X-sign”签名算法等手段突破、绕过淘宝公司的“反爬虫”防护机制，再通过数据抓取程序大量非法抓取淘宝公司存储的各主播在淘宝直播时的开播地址、销售额、观看PV、UV等数据。至案发，益采公司整合非法获取的数据后对外出售牟利，违法所得共计人民币22万余元。法院认为被告人李某、王某、高某等人构成非法获取计算机信息系统数据罪，分别判处有期徒刑二年六个月、一年三个月不等，并处罚金。

法院认为，被告人李文某为牟取私利，违法国家规定，侵入国家事务领域的计算机信息系统，被告人的行为均已构成非法侵入计算机信息系统罪。

3、提供侵入、非法控制计算机信息系统程序、工具罪

《刑法》第285条第3款对该罪规定如下，提供专门用于侵入、非法控制计算机信息系统的程序、工具，或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具，情节严重的，依照前款的规定处罚。《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用刑事案件应用法律若干问题的解释》中还列举了“具有避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权获取计算机信息系统数据的功能的”等类型的程序、工具。

典型案例：陈辉提供侵入、非法控制计算机信息系统程序、工具罪（2021）粤0115刑初5号

本案中，被告人陈辉为牟取非法利益，在本区编写爬虫软件用于在浙江淘宝网络有限公司旗下的大麦网平台上抢票，并以人民币1888元到6888元不等的价格向他人出售该软件，非法获利人民币12万余元。2019年7月11日，被告人陈辉被公安机关抓获。经鉴定，上述爬虫软件具有以非常规的方式构造和发送网络请求，模拟用户在大麦网平台手动下单和购买商品的功能；具有以非常规手段模拟用户识别和输入图形验证码的功能，该功能可绕过大麦网平台的人机识别验证机制，以非常规方式访问大麦网平台的资源。

本院认为，被告人陈辉提供专门用于侵入、非法控制计算机信息系统程序、工具，情节特别严重，依法应予惩处。

4、 侵犯公民个人信息罪

《刑法》第253条中规定了该罪，违反国家有关规定，向他人出售或者提供公民个人信息，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。违反国家有关规定，将在履行职责或者提供服务过程中获得的公民个人信息，出售或者提供给他人的，依照前款的规定从重处罚。窃取或者以其他方法非法获取公民个人信息的，依照第一款的规定处罚。

典型案例：杭州魔蝎数据科技有限公司、周江翔、袁冬侵犯公民个人信息罪（2020）浙0106刑初437号

本案中，被告人周江翔系魔蝎公司法定代表人、总经理，负责公司整体运营，被告人袁冬系魔蝎公司技术总监，系技术负责人，负责相关程序设计。魔蝎公司主要与各网络贷款公司、小型银行进行合作，为网络贷款公司、银行提供需要贷款的用户的个人信息及多维度信用数据，方式是魔蝎公司将其开发的前端插件嵌入上述网贷平台A中，在网贷平台用户使用网贷平台的APP借款时，贷款用户需要在魔蝎公司提供的前端插件上，输入其通讯运营商、社保、公积金、淘宝、京东、学信网、征信中心等网站的账号、密码，经过贷款用户授权后，魔蝎公司的爬虫程序代替贷款用户登录上述网站，进入其个人账户，利用各类爬虫技术，爬取（复制）上述企、事业单位网站上贷款用户本人账户内的通话记录、社保、公积金等各类数据。

法院认为，被告单位杭州魔蝎数据科技有限公司以其他方法非法获取公民个人信息，情节特别严重，其行为已构成侵犯公民个人信息罪。被告人周江翔、袁冬分别系对被告单位魔蝎公司侵犯公民个人信息行为直接负责的主管人员和其他直接责任人员，其行为均已构成侵犯公民个人信息罪。

5、侵犯著作权罪

根据《刑法》第217条规定，以营利为目的，有下列侵犯著作权或者与著作权有关的权利的情形之一，违法所得数额较大或者有其他严重情节的，处三年以下有期徒刑，并处或者单处罚金；违法所得数额巨大或者有其他特别严重情节的，处三年以上十年以下有期徒刑，并处罚金：（一）未经著作权人许可，复制发行、通过信息网络向公众传播其文字作品、音乐、美术、视听作品、计算机软件及法律、行政法规规定的其他作品的；（二）出版他人享有专有出版权的图书的；（三）未经录音录像制作者许可，复制发行、通过信息网络向公众传播其制作的录音录像的；（四）未经表演者许可，复制发行录有其表演的录音录像制品，或者通过信息网络向公众传播其表演的；（五）制作、出售假冒他人署名的美术作品的；（六）未经著作权人或者与著作权有关的权利人许可，故意避开或者破坏权利人为其作品、录音录像制品等采取的保护著作权或者与著作权有关的权利的技术措施的。

典型案例：谭某某等侵犯著作权罪（2020）京0108刑初237号

本案中，被告鼎阅公司自2018年开始，在覃某某等12名被告人负责管理或参与运营下，未经掌阅科技股份有限公司、北京幻想纵横网络技术有限公司等权利公司许可，利用网络爬虫技术爬取正版电子图书后，在其推广运营的“鸿雁传书”“TXT全本免费小说”等10余个App中展示，供他人访问并下载阅读，并通过广告收入、付费阅读等方式进行牟利。根据经公安机关依法提取收集并经勘验、检查、鉴定的涉案侵权作品信息数据、账户交易明细、鉴定结论、广告推广协议等证据，法院查明，涉案作品侵犯掌阅科技股份有限公司、北京幻想纵横网络技术有限公司享有独家信息网络传播权的文字作品共计4603部，侵犯中文在线数字出版集团股份有限公司享有独家信息网络传播权的文字作品共计469部。

法院认为，鼎阅公司、直接负责的主管人员覃某某等12名被告人以营利为目的，未经著作权人许可，复制发行他人享有著作权的文字作品，情节特别严重，其行为均已构成侵犯著作权罪，应予惩处。

（2） 构成不正当竞争

我国《反不正当竞争法》第12条规定：“经营者利用网络从事生产经营活动，应当遵守本法的各项规定。经营者不得利用技术手段，通过影响用户选择或者其他方式，实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为：（一）未经其他经营者同意，在其合法提供的网络产品或者服务中，插入链接、强制进行目标跳转；（二）误导、欺骗、强迫用户修改、关闭、卸载其他经营者合法提供的网络产品或者服务；（三）恶意对其他经营者合法提供的网络产品或者服务实施不兼容；（四）其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。

典型案例：深圳市腾讯计算机系统有限公司、腾讯科技（深圳）有限公司与被告某新媒体公司不正当竞争纠纷案

本案中，两原告系微信公众平台的经营者和管理者，被告某新媒体公司系某网站经营者，利用爬虫技术抓取微信公众平台文章等信息内容数据，并通过网站对外提供公众号信息搜索、导航及排行等数据服务。原告诉称，被告利用被控侵权产品，突破微信公众平台的技术措施进行数据抓取，并进行商业化利用，妨碍平台正常运行，构成不正当竞争。被告辩称，爬取并提供公众号数据服务的行为不构成不正当竞争，其爬取的文章并非腾讯公司的数据，而是微信公众号的用户数据，且其网站获利较少。

法院认为，被告违背诚实信用原则，擅自使用原告征得用户同意、依法汇集且具有商业价值的数据，并足以实质性替代其他经营者提供的部分产品或服务，损害公平竞争的市场秩序，属于《反不正当竞争法》第十二条第二款第四项所规定的妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为，构成不正当竞争。

（3） 行政责任

我国当前关于爬虫行为所应承担的行政责任主要规定在《网络安全法》中，其中涉嫌违反第27条规定的：“任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动；不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具；明知他人从事危害网络安全的活动的，不得为其提供技术支持、广告推广、支付结算等帮助。”，需要承担一定的行政责任。该法第63条对违反第27条还规定了具体的行政处罚措施，包括“没收违法所得”“拘留”“罚款”等处罚。同时，对违反27条规定受到处罚的相关人员也作出了任职限制规定。

此外，《数据安全管理办法（征求意见稿）》第16条对爬虫适用作出了限流规定：“网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。”同时，第37条也规定了相应的行政责任：网络运营者违反相关规定的，由有关部门给予公开曝光、没收违法所得、暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证或吊销营业执照等处罚。

三、数据爬取行为的合规指引

（一）严格规范数据爬取行为

1、如果目标网站有反爬取协议，应严格遵守网站设置的 Robots协议。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。该协议尊重信息提供者的意愿，并维护其隐私权;保护其使用者的个人信息和隐私不被侵犯。Robots协议代表一种契约精神，互联网企业只有遵守这一规则，才能保证网站及用户的隐私数据不被侵犯。可以说，无论从保护网民隐私还是尊重版权内容的角度，遵守robots协议都应该是正规互联网公司的默之举，任何违反robots协议的行为都应该为此付出代价。

2、合理限制抓取的内容。在设置抓取策略时，应注意编码禁止抓取视频、音乐等可能构成作品的、明确的著作权作品数据，或者针对某些特定网站批量抓取其中的用户生成内容；在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。对于内部系统数据，严格禁止侵入。

3、爬取行为不应妨碍网站的正常运行。企业应当合理控制爬取的频率，尽可能避免过于频繁地抓取数据，特别是如果超过了《数据安全管理办法（征求意见稿）》明确规定的“自动化访问收集流量超过网站日均流量三分之一”的要求，就应当严格遵守网站的要求，及时停止数据抓取。

（二）爬取个人信息时恪守合法、正当、必要原则

在我国，合法、正当、必要原则散见于《消费者权益保护法》、《网络安全法》、《全国人大常委会关于加强网络信息保护的决定》、《个人信息安全规范》等法律与规范之中。网络经营者拟爬取用户个人信息的，应当严格遵守上述法律法规的规定，以取得个人用户的事前同意为原则，避免超出用户的授权范围爬取信息。同样地，数据接受方也应当对以爬虫方式获取的他人信息进行合法性审查，了解个人信息主体是否同意共享个人信息数据。

（三）爬取商业数据时谨防构成不正当竞争

在数字内容领域，数据是内容产业的核心竞争资源，内容平台经过汇总分析处理后的数据往往具有极高的经济价值，因此非法爬取行为在某些具体应用场景下会被认定为构成不正当竞争。尤其是对于双方商业模式相同或近似、获取对方的信息会对对方造成直接损害的，企业应重点予以防范。如果存在此种情形，则应当谨慎使用爬取获取被爬取网站的数据。

四、结语

随着大数据时代的来临以及数字技术的蓬勃发展，数据的价值日益凸显，部分企业通过数据爬取技术更加高效地获取和深度地利用相关数据，从而弥补企业自身数据不足的现状，支撑企业的商业化发展。对于这些企业而言，“网络爬虫如何爬取信息数据才是合法的？”“爬取数据时如何做到合规？”是亟待解决的一大难题。作为法律工作者，应当从法律的专业角度给企业提供强有力的合规指引，为促进高新技术企业的发展，进而全面提升国家科技创新能力做出应有的贡献。

在众多的晶体数据库当中, 位于英国剑桥大学的剑桥晶体数据库中心CCDC管理的数据库CSD极著盛名。它主要存储那些含有C-H 键的小分子晶体结构数据, 处理的分子原子总数在500以内, 而不含C-H 键的无机物和大分子晶体数据库则有著名的无机晶体结构数

当然是不写代码呗，有现成的爬虫软件可以直接使用，就没必要在一行一行的撸码了，下面我简单介绍2个爬虫软件—Excel和八爪鱼，这2个软件都可以快速抓取网页数据，而且使用起来也非常简单：

Excel

利用Excel爬取网页数据，这个大部分人都应该听说或使用过，对于一些简单规整的静态网页数据，像表格数据等，可以直接使用Excel外部链接导入，下面我简单介绍一下这种方式：

1这里以爬取rank上的PM25数据为例，都是规整的表格数据，如下：

2新建一个excel文件并打开，依次点击菜单栏的“数据”->“自网站”，如下：

3接着在d出的窗口输入上面的网页链接地址，点击“转到”按钮，就会自动打开网页，如下：

4最后，我们点击右下角的“导入”按钮，就能将网页中的表格数据导入到Excel文件中，如下，非常方便，也不需要我们再次整理：

八爪鱼

这个是比较专业的一个爬虫软件，对于复杂、动态加载数据的网页来说，可以使用这个软件进行抓取，下面我简单介绍一下这个软件：

1首先，下载安装八爪鱼软件，这个直接到官网上下载就行，如下：

2安装完成后，我们就可以利用这个软件爬取网页数据了，首先，打开这个软件，在主页中选择“自定义采集”，如下：

3接着在任务页面，输入我们需要爬取的网页，这里以爬取智联招聘上的数据为例，如下：

4点击保存按钮，就会自动跳转到对应网页并打开，效果如下，这里我们就可以直接选择我们需要爬取的网页数据，非常简单，按照 *** 作提示一步一步往下走就行：

5最后点击保存并开始采集，启动本地采集，就能自动爬取刚才选中的数据，如下：

这里你也根据自己需要，选择数据导出的格式，Excel、CSV、HTML、数据库等都可以，如下：

至此，我们就完成了利用Excel和八爪鱼来爬取网页数据。总的来说，这2个爬虫软件使用起来都非常不错，也容易学习和掌握，只要你熟悉一下 *** 作，很快就能掌握的，当然，如果你有一定的编程基础，也可以通过编程来实现网页爬虫，像Java、Python等都可以，感兴趣的话，可以自己尝试一下，网上也有丰富的教程和资料可供参考，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言。

1、URL管理

首先url管理器添加了新的url到待爬取集合中，判断了待添加的url是否在容器中、是否有待爬取的url，并且获取待爬取的url，将url从待爬取的url集合移动到已爬取的url集合

页面下载，下载器将接收到的url传给互联网，互联网返回html文件给下载器，下载器将其保存到本地，一般的会对下载器做分布式部署，一个是提交效率，再一个是起到请求代理作用

2、内容提取

页面解析器主要完成的是从获取的html网页字符串中取得有价值的感兴趣的数据和新的url列表。数据抽取比较常用的手段有基于css选择器、正则表达式、xpath的规则提取。一般提取完后还会对数据进行一定的清洗或自定义处理，从而将请求到的非结构数据转化为我们需要的结构化数据。

3、数据保存

数据保存到相关的数据库、队列、文件等方便做数据计算和与应用对接。

爬虫采集成为很多公司企业个人的需求，但正因为如此，反爬虫的技术也层出不穷，像时间限制、IP限制、验证码限制等等，都可能会导致爬虫无法进行，所以也出现了很多像代理IP、时间限制调整这样的方法去解决反爬虫限制，当然具体的 *** 作方法需要你针对性的去研究。兔子动态IP软件可以实现一键IP自动切换，千万IP库存，自动去重，支持电脑、手机多端使用。

以上就是关于数据爬虫行为如何合规全部的内容，包括:数据爬虫行为如何合规、怎样从ccdc软件中获取晶体结构数据库、你是如何高效写“爬虫”的等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10166020.html

数据爬虫行为如何合规

发表评论

评论列表（0条）