网络爬虫违法吗?都涉及到哪些相关法律?

科技 网编 2023-03-11 14:04 134 0

正常的网络爬虫并不违法。

1.首先,我们先来说下网络爬虫。

网络爬虫就是一种按照一定规则,自动抓取互联网上信息的程序或是脚本。而所有的搜索引擎,例如百度,搜狗等,均靠网络爬虫来收录网站,互联网上,50%以上,甚至更高的流量都是网络爬虫贡献的。某些热门网站,由于各大搜索引擎争相收录,光网络爬虫的访问量就能占据该页面总访问量的90%以上,因此可见,正常的网络爬虫并不违法。

2.接下来,我们谈下网络爬虫所涉及到的相关法律。

(1)我国最早涉及这方面的是2017.06.01号颁布的《中华人民共和国网络安全法》。

那时候因为一些科研工作,需要分析一下社交网络平台的用户信息,于是就想爬一些新浪微博的用户资料用来建模分析。那时就有人说:爬虫不是犯法的嘛?听的我当时一脸的诧异,连这种公开信息也不能抓取?那还搞什么科研?但是,我还是比较怂的,大不了用外国公开的过时数据,我也不想违反法律。就在这种纠结的心情下,我仔细的阅读研究了下《中华人民共和国网络安全法》,奇怪的是,我并没有发现任何一条关于抓取网络公开信息的规定,难道是我眼花了?在朋友帮助地再三确认前提下,我意识到说网络爬虫违法的都是一些"门外汉"的误导性说法。

为了科研工作的顺利进行还不能违反法律,于是,我又仔细查阅了一下,什么样网络爬虫是违法的呢?我应该注意什么呢?

在网络安全法中规定,这些网络爬虫行为是违法的:

①未经授权爬取用户手机通讯录超过50条记录,获刑最高可达3年;

②未经授权抓取用户淘宝交易记录超过500条的获刑最高可达3年

③未经授权读取用户运营商网站通话记录超过500条以上的,获刑最高可达7年;

④未经授权读取用户公积金社保记录的超过50000条的,获刑最高可达7年。

(2)《著作权法实施条例》

该条例第二条,著作权法所称作品,是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。由于爬取行为本质上就是复制的行为。因此,当爬取的数据具有独创性特征时,爬取行为可能会违反《著作权法》,构成对数据所有者著作权的侵犯。

所以,网络爬虫不可爬取具有独创性的内容数据。例如,电子数据化的论文、音乐、电影、数据库、歌单等。

(3)《反不正当竞争法》

该法律第二条规定,不正当竞争行为,是指经营者在生产经营活动中,违反反不正当竞争法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。如果爬取内容构成了网站商业竞争的主要优势,未经网站许可爬取数据并将数据用于商业用途的行为可能会违反《反不正当竞争法》,构成不正当竞争行为。

所以,网络爬虫在爬取这些经营网站时,要遵守robots协议,不要爬取网站禁止抓取的内容和可能涉及商业机密的数据。

(4)《民法总则》

我国民法第一百一十一条规定,自然人的个人信息受法律保护;任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。因此,如果爬取行为未经信息所有者的同意甚至买卖、提供或公开爬取的数据将可能构成侵犯个人信息的行为

所以不要爬取那些涉及个人隐私信息的数据,除非是公民自己公开的一些社交信息。

(5)《刑法》

刑法第二百五十三条规定,违反国家有关规定,窃取、以其他方法非法获取、向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

因此,一定不要出售交易或是去爬取国家信息数据,想都不要想。

网络爬虫违法的信息可归为以下四类:

第一类:高度敏感信息,包括四种信息:行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动,由于定罪门槛最低,因此严格限制在此四类,不做任何扩展;

第二类:敏感信息,即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较,《解释》对第二类信息的界定仍留有空间,意味着在司法实践中,仍有可能会出现目前所列举之外的第二类信息类型;

第三类:其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息,达到定罪门槛的信息数量越少。

认真观察,你会发现,个人信息的,与信用基础数据相关的住宿信息、通信信息、交易记录本来就是不公开的用户隐私,这通常是在App内的用手机才能获取的信息。

网络爬虫竟然能用来获取到这些信息?抱歉,这已经超过了爬虫的范畴了。退一万步来说,有一天你能获取这些信息了,估计你早去支付宝上班了,谁还爬这些。

最后我想对从事网络爬虫有关工作的伙伴们说,至少到目前为止,都没有一条明确的规定禁止网络爬虫,那些说网络爬虫违法的,都是一些并不懂网络爬虫的媒体、非专业人士的臆想猜测。

所以那些科研而做的公开数据的网络爬虫的同学们,不用担心触犯法律,放心大胆地做实验吧!

最后,我想说几句关于网络爬虫道德的话:在爬取数搞时尽量放慢你的速度、尽量遵循robots、不要在科研以外的平台上公开你的爬虫源码、不要在科研以外的平台上分享你的爬虫数据。

评论区