细说小白学python爬虫过程中常见的反爬措施及解决思路（干货），

文章由Byrx.net分享于2020-05-12 09:05:06评论（390）

细说小白学python爬虫过程中常见的反爬措施及解决思路（干货），

最近有很多朋友和我讨论python爬虫遇到的反爬措施及解决办法，今天我就给大家分享一下自己在爬虫过程中遇到的坑及解决思路，希望对大家有所帮助。

看不见的反爬措施

一是加header头部信息：

什么是header头？

以火狐浏览器为例，右键—查看元素—进入网络界面，然后输入https://www.baidu.com进入百度主页：

红框内的部分就是该次请求的header头，服务器可以根据header头判断该次请求是由哪种浏览器（User-Agent）发起、访问的目标链接是从哪个网页跳转过来的（Referer）以及服务器地址（Host）。

1.加User-Agent值：
如果不加header头，部分网站服务器判断不到用户的访问来源，所以会返回一个404错误来告知你是一个爬虫，拒绝访问，解决办法如下：

这样服务器就会把用户当做浏览器了。建议每次爬虫都把User-Agnet头加上，起码是对人家网站的尊重

2.加Referer值
这类反爬网站也很常见，例如美团，仅仅加User-Agnet还是返回错误信息，这时就要把Referer值也加到头部信息中：

这样就会返回正常网页了。

3.加Host值
根据同源地址判断用户是否为爬虫，解决办法为：

4.加Accept值
之前遇到过这种网站，我加了一圈header头部信息才成功，最后发现是需要加Accept值，这类反爬措施的解决办法为：

关于header头的反爬，建议在加上User-Agent失败之后，就把所有头部信息加上，最后用排除法选出到底是哪个值。

二是限制IP的请求数量：

这种就更常见了，大部分网站都有此类反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。此种情况有两种解决办法：

①降低爬虫请求速率，但是会降低效率；

②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。
添加格式为：

三是Ajax动态请求加载：
这类一般是动态网页，无法直接找到数据接口，以某易新闻网站为例：

我想爬取该网页内的新闻图片，发现它的网页url一直不变，但是下拉网页的时候会一直加载图片，那么我们该怎么办呢？

首先按照开头方式打开流量分析工具

点击左上角“垃圾桶”图标清空缓存，然后下拉新闻网页：

会出现一大堆东西，但是不用慌，我们可以根据类型去寻找，一般图片信息肯定实在html、js或json格式的文件中，一个一个点进去看看，很快就找到了结果：

结果中把callback去掉之后就是个json文件，它的url为：

红线处为变量，02代表第2页，这样就找到图片接口啦。

看的见的反扒措施

一是登录才有数据，比如某查查：

这种一般有三种解决办法，一是requests模拟登录，但是会有参数加密的问题和验证码的问题，有点难；二是selenium模拟登录，要解决验证码的问题；三是手动登录后获取cookie，在requests中加入cookie，这种方法比较简单，但是受cookie有效期的限制，要经常更换cookie。

关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

我用眼都很难瞅出来，程序就更难说了，索性直接用打码网站，价格不贵，准确率又低。

二是限制网页返回数据条数：
例如微博评论，最多只能返回50页的评论数据，这种反扒措施暂时没有好的解决办法，除非能找到特殊接口。

三是多次验证：
例如12306网站，用requests实现自动抢票时，浏览器会和服务器进行多次交互验证，有的验证虽然不返回任何数据，但是还必须要有，否则下一个url的请求就会出错。

四是网站数据加密：
也就是说网站服务器返回的数据经过某种加密算法进行加密，这个时候你就要学习前端知识了，因为加密方式一般都隐藏在JavaScript代码中，如果你学会这一技能，基本可以应聘爬虫工程师的岗位了。

五是APP数据：
没有网页数据，例如二手交易平台某鱼

爬这类数据一般有两种方法：一是边爬边处理，即用appium模拟点击滑动手机界面，然后用mitmdump在后端监测并保存数据，这种方法比较简单；二是做逆向分析，这个过程是很难的，目前这部分知识小编也正在学习中，希望有机会能和大家一起交流。

以上都是我在爬虫实践中遇到的一些反爬措施，希望能对大家的爬虫学习之路起到抛砖引玉的作用。

一是加header头部信息：

什么是header头？

以火狐浏览器为例，右键—查看元素—进入网络界面，然后输入https://www.baidu.com进入百度主页：

红框内的部分就是该次请求的header头，服务器可以根据header头判断该次请求是由哪种浏览器（User-Agent）发起、访问的目标链接是从哪个网页跳转过来的（Referer）以及服务器地址（Host）。1.加User-Agent值：
如果不加header头，部分网站服务器判断不到用户的访问来源，所以会返回一个404错误来告知你是一个爬虫，拒绝访问，解决办法如下：

这样服务器就会把用户当做浏览器了。建议每次爬虫都把User-Agnet头加上，起码是对人家网站的尊重2.加Referer值
这类反爬网站也很常见，例如美团，仅仅加User-Agnet还是返回错误信息，这时就要把Referer值也加到头部信息中：

这样就会返回正常网页了。3.加Host值
根据同源地址判断用户是否为爬虫，解决办法为：

4.加Accept值
之前遇到过这种网站，我加了一圈header头部信息才成功，最后发现是需要加Accept值，这类反爬措施的解决办法为：

关于header头的反爬，建议在加上User-Agent失败之后，就把所有头部信息加上，最后用排除法选出到底是哪个值。二是限制IP的请求数量：这种就更常见了，大部分网站都有此类反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。此种情况有两种解决办法：
①降低爬虫请求速率，但是会降低效率；②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。
添加格式为：

三是Ajax动态请求加载：
这类一般是动态网页，无法直接找到数据接口，以某易新闻网站为例：

我想爬取该网页内的新闻图片，发现它的网页url一直不变，但是下拉网页的时候会一直加载图片，那么我们该怎么办呢？首先按照开头方式打开流量分析工具

点击左上角“垃圾桶”图标清空缓存，然后下拉新闻网页：

结果中把callback去掉之后就是个json文件，它的url为：

红线处为变量，02代表第2页，这样就找到图片接口啦。看的见的反扒措施一是登录才有数据，比如某查查：

这种一般有三种解决办法，一是requests模拟登录，但是会有参数加密的问题和验证码的问题，有点难；二是selenium模拟登录，要解决验证码的问题；三是手动登录后获取cookie，在requests中加入cookie，这种方法比较简单，但是受cookie有效期的限制，要经常更换cookie。关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

我用眼都很难瞅出来，程序就更难说了，索性直接用打码网站，价格不贵，准确率又低。二是限制网页返回数据条数：
例如微博评论，最多只能返回50页的评论数据，这种反扒措施暂时没有好的解决办法，除非能找到特殊接口。

四是网站数据加密：
也就是说网站服务器返回的数据经过某种加密算法进行加密，这个时候你就要学习前端知识了，因为加密方式一般都隐藏在JavaScript代码中，如果你学会这一技能，基本可以应聘爬虫工程师的岗位了。五是APP数据：
没有网页数据，例如二手交易平台某鱼

爬这类数据一般有两种方法：一是边爬边处理，即用appium模拟点击滑动手机界面，然后用mitmdump在后端监测并保存数据，这种方法比较简单；二是做逆向分析，这个过程是很难的，目前这部分知识小编也正在学习中，希望有机会能和大家一起交流。以上都是我在爬虫实践中遇到的一些反爬措施，希望能对大家的爬虫学习之路起到抛砖引玉的作用。

热门文章：

细说小白学python爬虫过程中常见的反爬措施及解决思路（干货），

细说小白学python爬虫过程中常见的反爬措施及解决思路（干货），

相关内容

最新python教程

python~HOT