scrapy采集数据过程中放回下载过大的页面,scrapy采集,添加以下代码到setti
scrapy采集数据过程中放回下载过大的页面,scrapy采集,添加以下代码到setti
添加以下代码到settings.py,myproject为你的项目名称
DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHTTPClientFactory'
自定义限制下载过大页面的模块
MAX_RESPONSE_SIZE = 1048576 # 1Mbfrom scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetterclass LimitSizePageGetter(ScrapyHTTPPageGetter): def handleHeader(self, key, value): ScrapyHTTPPageGetter.handleHeader(self, key, value) if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE: self.connectionLost('oversized')class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory): protocol = LimitSizePageGetter
相关内容
- python字典(dict)操作详解,pythondict,1、创建字典:(
- Python加pyGame设计的简单拼图游戏,pythonpygame,import pyga
- python计算指定多少天后的日期,python天后日期, d1 = da
- python通过MD5文件校验来查找重复内容的文件,pythonmd5
- xapian通过python实现的简单排序代码,xapianpython,James Ay
- python操作mongodb根据_id查询数据的代码,mongodb_id,如果
- python按照多个字符对字符串进行分割(split),pythonsplit
- python从ftp服务器下载文件,,import ftpli
- python利用asyncore的端口映射(端口转发),pythonasyncore,im
- python复制整个目录的方法,python复制整个目录,import s
评论关闭