Scrapy 爬虫日志中出现Forbidden by robots.txt

  爬取汽车之家数据的时候,日志中一直没有任何报错,开始一直不知道什么原因导致的,后来细细阅读了下日志发现日志提示“Forbidden by robots.txt”,Scrapy 设置文件中如果把ROBOTSTXT_OBEY设置为True的时候,会遵循robots.txt 规则进行爬虫;

  这个时候我们只需要很流氓的把setting.py 文件中设置ROBOTSTXT_OBEY=False,这样就完事大吉了

Scrapy ROBOTSTXT_OBEY 默认设置True,会在抓取数据的时候首先会请求robots.txt文件,看看是否允许抓取,如果允许才会抓取。

上一篇:[C/C++] zltabout(带缩进的格式化输出)v1.0。能以相同的代码绑定到 C FILE 或 C++流


下一篇:float与double的范围和精度以及大小非零比较