python3--网络爬虫--爬取图片，python3--爬虫--爬,网上大多爬虫仍旧是p

文章由Byrx.net分享于2019-05-30 07:05:53评论（192）

python3--网络爬虫--爬取图片，python3--爬虫--爬,网上大多爬虫仍旧是p

网上大多爬虫仍旧是python2的urllib2写的，不过，坚持用python3（3.5以上版本可以使用异步I/O）

相信有不少人爬虫第一次爬的是Mm图，网上很多爬虫的视频教程也是爬mm图，看了某人的视频后，把这个爬虫给完成了

因为爬取的内容涉及个人隐私，所以，爬取的代码及网址不在此公布，不过介绍一下爬取的经验：

1.我们首先得了解我们要爬取的是什么，在哪爬取这些信息，不要着急想用什么工具，怎么搞，怎么搞得

2.手动操作一遍爬虫要完成的任务，我这个就是爬图片的，可以自己操作一遍

3.打开抓包软件或者Google的F12调试工具,查看数据，了解请求过程中的信息，如网址，发送请求的数据

大概了解以上信息后，可以开始编写爬虫了（个人经验，大牛勿喷，，，）

介绍python3用于爬虫的模块及方法：

可以查看官方的API文档，看懂文档，下面的就不用看了

urllib包：在python2中urllib和urllib2是分开的，python3合并在了一起，强调，这是个包，所以很多函数不一样了，但是还是那个味道

urllib.request for opening and reading URLsurllib.error containing the exceptions raised by urllib.requesturllib.parse for parsing URLsurllib.robotparser for parsing robots.txt files 这四个模块中urllib.request是常用的，urllib.parse中urlencode()也是会用到的
在urllib.request中，常用的方法：
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
headers参数，如果不想很容易被服务器发现，那么最起码加个user-agent吧，当然，你可以设置代理ip
urllib.parse.urlencode(query, doseq=False, safe=‘‘, encoding=None, errors=None, quote_via=quote_plus)
将请求发送的data字典转化为str，经过编码，data成了（get请求不用）
附pythonAPI文档
在爬取的过程中，正则表达式一定会用到，推荐一款软件：MTracer,可以自己尝试写正则：
还是很不错的，谁爬谁知道
python3--网络爬虫--爬取图片





 今日最新热门文章：
 [Python]webservice 学习(1) -- 简单服务和调用，
python接口自动化测试一：http协议，,1、 http简
利用Python的SocketServer框架编写网络服务程序，
Python服务器开发 --  网络基础，python网络基础
十分钟搞定pandas，十分钟pandas,这里是将要完
快速构建Python爬虫IP代理池服务，构建python爬

 

 相关内容

 python之图片文字识别，python文字识别,总体思路：　　
关于python鸭子类型和白鹅类型，,1，白鹅类型白鹅类型
Python 词云分析周杰伦《晴天》，,一、前言满天星辰的
python：多进程、多线程，,线程&进程对于操作系
python 统计MySQL大于100万的表，pythonmysql,一、需求分析线
python学习笔记——孤儿进程和僵尸进程，python学习笔记
python WSGI框架详解，,1.web应用的本质
python接口自动化测试一：http协议，,1、 http简介：
python基础2 -画图，,?#!/usr/bi
Python（八） —— 异常（概念、捕获、传递、抛出），

推荐教程：python教程  python问答  python源码实例  python开发工具  python框架

python3--网络爬虫--爬取图片，python3--爬虫--爬,网上大多爬虫仍旧是p

python3--网络爬虫--爬取图片，python3--爬虫--爬,网上大多爬虫仍旧是p

相关内容

最新python教程

python~HOT