网络爬取数据违法吗?详解爬取数据时如何做到合法合规

  • 时间:
  • 浏览:0
  • 来源:5分排列3-5分赛车平台_5分时时彩网投平台

大数据时代,众多的网站/APP将都其掌握的血块用户信息等数据视为核心竞争资源。

近年来,因争夺数据引发的纠纷屡见报端,如淘宝、微信屏蔽百度搜索,顺丰否认关闭对菜鸟的数据接口,新浪与今日头条关于微博内容爬取的争议等。

获取数据的最好的法律法律依据,除了向用户整理、从第三方共享、受让外,还有其他使用爬虫爬取数据的最好的法律法律依据。

图源:网络

几乎每一家互联网公司都养着一只“蜘蛛侠”,百度蜘蛛叫Baiduspider,谷歌蜘蛛叫googlebot,330蜘蛛叫330Spider,什么蜘蛛每天都越来太快地活跃在互联网上,不停地抓取互联网内容。

网络爬虫如何爬取信息数据才是合法的?爬取数据时如何做到合规?本文将就什么现象进行逐一梳理。

下图为本文内容的思维导图:

一、合法爬取

1.1抓取面前的爬虫技术违法吗?

爬虫作为其他计算机技术决定了它的中立性,爬虫其他在法律上暂且被禁止,可能爬虫整理的是公开的数据则是还要能的。当然操作不当,就可能涉及违法甚至是犯罪的风险。

公开指的是对大众公开,对每该人公开的信息,并都是特定人群要能都看的信息。

1.2非商业网站的爬取

可能爬取对象是提供公开查询服务的网站,如中国政府网、最高人民法院裁判文书网等,是还要能抓取的。

1.3商业网站的爬取

可能爬取对象是各类商业服务网站,类事 网站没能 设置反爬声明,也没能 采取反爬技术最好的法律法律依据的,则也是还要能爬取的。

1.4有权爬取的注意事项

可能有有另另有一个 商业服务网站或app既未设置反爬技术最好的法律法律依据,也未公开反爬声明,也暂且导致 还要能随意抓取其相关数据。具体合规做法参见第六部分。

二、非法爬取

什么情况表下使用爬虫爬取数据是非法的呢?

2.1网站设置了反爬声明

当网站声明了robots协议——即网络爬虫排除标准时,数据爬取方应当对robots.txt中所记载的禁止爬取范围进行规避,若不遵守该协议,则可能面临侵权纠纷或反不正当竞争之诉,前要赔偿商业损失。

2.2网站采取了反爬技术最好的法律法律依据的

可能被爬取的网站可能采取了一定的反爬技术最好的法律法律依据,无论该技术不是高级有效,违反网站意愿,强行突破其反爬最好的法律法律依据,都是非法的。

2.3网站非公开信息数据

可能爬取的对方公司“内网”或后台外部数据,整理非公开的信息,则是违法的。

2.4网站受法律保护的信息或数据

如对方网站合法整理的买车人敏感信息、对方公司受到法律保护的特定类型的数据或信息等。

2.5其他非法情况表

如爬虫干扰了被访问网站的正常运营、侵犯商业秘密、构成不正当竞争的情况表等,具体还要能参见本文第六部分。

三、犯罪爬取

我国已有法律对网络爬虫进行规制主要集中在刑法有关计算机信息系统犯罪的相关条文第285条、第286条上。刑法规范的是对目标网站造成严重影响并具有社会危害性的数据抓取行为。

3.1非法侵入计算机信息系统罪、非法控制计算机信息系统罪

比遵守反爬协议更重要的是,爬虫绝没能 有绕过或突破被爬取方反爬技术的功能。根据我国最高法司法解释,专门用于侵入、非法控制计算机信息系统的系统tcp连接、工具指的是:

(一)具有避开可能突破计算机信息系统安全保护最好的法律法律依据,未经授权可能超越授权获取计算机信息系统数据的功能的;

(二)具有避开可能突破计算机信息系统安全保护最好的法律法律依据,未经授权可能超越授权对计算机信息系统实施控制的功能的;

(三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的系统tcp连接、工具。

可能爬虫具备绕过或突破对方反爬技术最好的法律法律依据的功能,则极易被认定为侵入计算机信息系统的系统tcp连接;

可能在数据抓取过程中实施了非法控制行为,可能构成非法控制计算机信息系统罪。

案例:元光公司“车来了”app为外理公交信息延迟、获取精准数据,破解了谷米公司的酷米客APP加密系统,并利用爬虫技术爬取了酷米客APP内实时数据。最终元光公司多名高管被依法追究刑事责任。

3.2非法获取计算机信息系统数据罪

若行为人违反刑法的相关规定,通过网络爬虫访问整理一般网站所存储、外理或传输的数据,可能构成刑法中的非法获取计算机信息系统数据罪。

(1)破解了对方服务器的防抓最好的法律法律依据的

案例:2017年,秀淘破解了今日头条服务器的防抓最好的法律法律依据,使后者损失技术服务费两万元。最终法庭判决,涉事者可能触犯非法获取计算机信息系统数据罪,这是国内首起“爬虫入刑”案。

(2)采用技术手段抓取被他人服务器中存储的视频数据,情节严重的,构成非法获取计算机信息系统数据罪。

案例:上海晟品网络科技有限公司、侯明强等非法获取计算机信息系统数据罪案【北京海淀区人民法院(2017)京0108刑初2384号】

(3)破解对方公司的防抓取最好的法律法律依据,实施视频数据抓取行为

案例:2019年初,北京市海淀区人民法院审结了一齐利用“爬虫”技术侵入计算机信息系统抓取数据的刑事案件。

该案系全国首例利用“爬虫”技术非法入侵其他公司服务器抓取数据,进而实施一键复制被害单位视频资源的案件。

最终海淀区法院以非法获取计算机信息系统数据罪分别判处被告单位罚金115万元,判处被告人张某等四人有期徒刑九个月至一年不等的刑罚及3万元至15万元不等的罚金。

(4)2014年,“WIFI上网精灵”可能模拟“WIFI万能钥匙”软件用户,获取对方软件数据库内WIFI热点密码并进行解密保存,被上海市杨浦区人民检察院以非法获取计算机信息系统数据罪指控。

3.3破坏计算机信息系统罪

可能使用网络爬虫频繁访问目标数据服务器,造成对目标网站的功能干扰,导致 其访问流量增大、系统响应变缓,影响正常运营的,也可能构成破坏计算机信息系统罪。

四、相关法律法规及规定

4.1《中华人民共和国刑法》

第二百八十五条违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑可能拘役。

违反国家规定,侵入前款规定以外的计算机信息系统可能采用其他技术手段,获取该计算机信息系统中存储、外理可能传输的数据,可能对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑可能拘役,并处可能单处罚金;情节不得劲严重的,处三年以上七年以下有期徒刑,并处罚金。

提供专门用于侵入、非法控制计算机信息系统的系统tcp连接、工具,可能明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供系统tcp连接、工具,情节严重的,依照前款的规定处罚。

单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。

第二百八十六条违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统没能 正常运行,后果严重的,处五年以下有期徒刑可能拘役;后果不得劲严重的,处五年以上有期徒刑。

违反国家规定,对计算机信息系统中存储、外理可能传输的数据和应用系统tcp连接进行删除、修改、增加的操作,后果严重的,依照前款的规定处罚。

故意制作、传播计算机病毒等破坏性系统tcp连接,影响计算机系统正常运行,后果严重的,依照第一款的规定处罚。

单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照第一款的规定处罚。

4.2《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干现象的解释》

第二条具有下列情况表之一的系统tcp连接、工具,应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的系统tcp连接、工具”:

(一)具有避开可能突破计算机信息系统安全保护最好的法律法律依据,未经授权可能超越授权获取计算机信息系统数据的功能的;

(二)具有避开可能突破计算机信息系统安全保护最好的法律法律依据,未经授权可能超越授权对计算机信息系统实施控制的功能的;

(三)其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的系统tcp连接、工具。

4.3《数据安全管理最好的法律法律依据(征求意见稿)》

第十六条网络运营者采取自动化手段访问整理网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问整理流量超过网站日均流量三分之一,网站要求停止自动化访问整理时,应当停止。

4.4《反不正当竞争法》

第九条经营者不得实施下列侵犯商业秘密的行为:

(一)以盗窃、贿赂、欺诈、胁迫、电子侵入可能其他不正当手段获取权利人的商业秘密;

(二)披露、使用可能允许他人使用前一天项手段获取的权利人的商业秘密;

(三)违反保密义务可能违反权利人有关保守商业秘密的要求,披露、使用可能允许他人使用其所掌握的商业秘密;

(四)教唆、引诱、帮助他人违反保密义务可能违反权利人有关保守商业秘密的要求,获取、披露、使用可能允许他人使用权利人的商业秘密。

经营者以外的其他自然人、法人和非法人组织实施前款所列违法行为的,视为侵犯商业秘密。

五、反爬取最好的法律法律依据

5.1设置反爬声明

可设置完善的Robots协议,并在用户协议中明确“为用户提供的是正常的访问服务,禁止用户实施以商业为目的的数据爬取行为”。

5.2采取反爬技术最好的法律法律依据

通过IP封锁、验证码、前要登录要能获得信息、访问频率、定时换样式/数据格式等技术保护最好的法律法律依据,设置反爬虫防护墙。

5.3设置版权信息等

对于不希望被爬取的内容,企业可增加相应的技术保护最好的法律法律依据,准备合理的理由(如商业密码、著作权等)等最好的法律法律依据。

5.4及时监控,积极维权

如发现自身数据被爬取,及时通过民事诉讼、行政举报投诉、刑事等手段进行维权。

六、合法爬取的合规注意事项

6.1区别数据性质

首没能识别数据性质,是公开数据、半公开数据还是外部系统数据,没能 爬取公开数据。

6.2选折 还要能抓取的网站

可能网站或app既未设置反爬技术最好的法律法律依据,也未公开反爬声明,是还要能爬取的。

6.3遵守反爬虫协议

可能目标网站有反爬虫协议,应严格遵守网站设置的robots协议。

案例:百度诉奇虎330案,法院经审理认为,Robots协议被认定为搜索引擎行业内公认的、应当被遵守的商业道德,被告公司在推出搜索引擎的伊始阶段没能 遵守原告网站的Robots协议,其行为不当,应承担相应的不利后果。

6.4爬虫行为不应妨碍网站的正常运行

《数据安全管理最好的法律法律依据(征求意见稿)》明确,自动化访问整理流量超过网站日均流量三分之一,即构成严重影响网站运行。

购买火车票的网站12306、最高人民法院裁判文书网网站就一直可能第三方爬虫爬取数据而严重影响网站的正常运行。

其他在使用爬虫时,前要优化买车人的代码,外理干扰被访问网站的正常运行。

6.5抓取内容的限制策略

在设置抓取策略时,应注意编码禁止抓取视频、音乐等可能构成作品的、明确的著作权作品数据,可能针对其他特定网站批量抓取其中的用户生成内容;

在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的买车人信息、隐私可能他人的商业秘密的,应及时停止并删除。

对于外部系统数据,严格禁止侵入。

6.6外理不正当竞争

对于双方商业模式相同或近似、获取对方的信息会对对方造成直接损害的,应重点予以防范。

案例:1:大众点评诉百度不正当竞争案--应遵循诚实信用的原则和公认的商业道德

2015年,“大众点评网”运营公司汉涛公司因百度未经许可,使用爬虫技术从汉涛公司运营的“大众点评网”上血块获取用户点评信息,用于自家的百度地图及百度知道产品,以“不正当竞争”为由将百度告上法庭。

法院审理后,最终认定搜索引擎抓取涉案信息虽未违反Robots协议,但这暂且导致 它还要能任意使用什么信息,应当本着诚实信用的原则和公认的商业道德,合理控制来源于第三方网站信息的使用范围和最好的法律法律依据。

百度公司的行为损害了汉涛公司的利益,构成不正当竞争,需停止以不正当的最好的法律法律依据使用点评信息。

案例2:大众点评诉爱帮网案件--外理实质性替代

“大众点评网”运营公司汉涛公司将竞争对手爱帮聚信(北京)科技有限公司诉至法院,认为爱帮公司经营的爱帮网通过血块一键复制大众点评网站内容,获取不当的浏览量和竞争优势,索赔人民币900万元。

法院认为爱帮网的行为事实上造成爱帮网向网络用户提供的涉案点评内容对大众点评网的相应内容的市场替代,从而让原网站抛下用户访问的价值,对汉涛公司的利益产生实质性损害。

案例3:酷米客诉车来了案

实时公交查询APP"酷米客",因后台血块信息数据遭盗取,而将类事 产品"车来了"告上法庭,该案也被称为全国首宗"爬虫"软件案。

深圳法院审理后认为,双方在提供实时公交信息查询软件的服务领域存在竞争关系。元光公司利用网络爬虫技术血块获取其他无偿使用谷米公司"酷米客"软件的实时公交信息数据的行为,实为其他"不劳而获""食人而肥"的行为。

被告具有非法占用他人无形财产权益,破坏他人市场竞争优势,并为买车人谋取竞争优势的主观故意,违反了诚实信用原则,扰乱竞争秩序,构成不正当竞争行为,应当承担侵权责任。

6.7外理伤害对方实质性商业利益

对于可爬取数据,可能系对方的核心化、批量式主营业务商业数据,应尽量外理以爬虫最好的法律法律依据搜集,以免伤害到并非 质性商业利益。

(1)禁止商业比价的形成

类事 比价软件直接将各个平台的类事 商品信息进行抓取并分析,实际上损害到其他电商公司的实质性商业利益。

(2)以搜索链接的最好的法律法律依据伤害对方实质性商业利益

案例:视畅信息公司与央视网知识产权侵权案

以搜索链接的最好的法律法律依据传播开幕式节目,是建立在傍附本属原告市场资源的基础之上。被告在不要再付出交易成本或付出交易成本甚微的条件下,即可凭借向公众提供与原告实时转播之开幕式节目相同的感官体验,获得与原告视频服务内容一致的竞争优势。

被告行为已实质性地利用了原告享有权益的市场资源,打破原有的交易秩序,挤占原告的交易可能,并损害其竞争权益。

法律暂且禁止技术创新与成果共享,但应以充分尊重他人合法权益为前提与边界。任何以技术名义损害他人商业利益的行为是无法获得法律的认同及肯定的。

对于使用网络爬虫其他技术的利用行为应注意做到合法合规,以免承担法律责任。

作者:张春杰律师来源:网络法律实务

注:文章内的所有配图皆为网络转载图片,侵权即删!