在不违反被爬网站robots协议的情况下，对一个公开访问的论坛内容(如豆瓣)进行数据抓取和保存，这样合法吗？

科技网编 2023-03-07 17:59 245 0

感谢悟空小秘书的邀请

类似百度、360搜等搜索引擎企业，它们会有全网爬虫的，24小时不间断对全网进行爬取。如果这样的网络爬虫不合法的话，那么这些企业都要关门了。

这些搜索引擎爬虫在爬取网站之前，都会看下该站点下是否有 robots.txt。然后按照 rbots.txt 里面定义的规则对该网站进行爬取。

所以制作爬虫程序，强烈建议遵循 robots 规则。另外，爬取网站的数据不得用于商业用途。例如将爬取到的网站数据售卖给网站的竞争对手等。

遵循这两点，就不算违法了。

喜欢的、觉得有用的麻烦点个赞，万分感谢~

个人微信公众号：极客猴（ID：Geek_monkey）

自己坚持分享 Python 原创干货，包括基础入门，进阶技巧，网络爬虫，数据分析，Web 应用开发等。欢迎关注~

评论区