Python Requests爬取目标网页代码,求神帮看下源码,pythonrequests,在学习python爬虫过
Python Requests爬取目标网页代码,求神帮看下源码,pythonrequests,在学习python爬虫过
在学习python爬虫过程中
想练习爬取该网站:http://www.topit.me/的图片
可是当初次访问该网站时
网页会显示该页面:http://www.topit.me/event/warmup/welcome/views/index.html
所以每次都获取不到我想要的HTML代码
该怎么解决呢?谢谢! 代码如下:
import re,requestsTopit_headers={'User-Agent':'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36'}Topit_Html=requests.get('http://www.topit.me/',headers=Topit_headers)Pic_url=re.findall('src="(.*?)" style',Topit_Html.text,re.S)print Topit_Html.cookies
Topit_headers里添加Cookie
初次访问主页,会跳转至欢迎页面,欢迎页上有 [进入网页版本] 的按钮,之后就不会再跳转了,说明按钮上有个操作设定了是否跳转的标识,查看源代码可知,设置了一个 cookie 作为标识
$.cookie('is_click' , '1',{expires: 100,path:'/',domain:'topit.me'});
所以在访问主页的时候,带上这个 cookie 即可
curl 'http://www.topit.me/' -H 'Cookie: is_click=1;'
'src="(.*?)" style' 源码没有这些内容,匹配不到的吧
编橙之家文章,
相关内容
- Python win32打开文件夹函数调用操作问题,pythonwin32,假如
- Django配置mysql数据库使用问题,djangomysql,django配置好m
- Python递归找到目标后停止递归方法是什么,python递归
- 请教Python切片分割及插入问题,,n = [1,5]n[1
- 求适合阅读c/c++/python的web服务器代码,pythonweb,比如ng
- 想知道Python爬虫程序原理,Python爬虫程序原理,python爬虫
- python连接kafka集群保证broker不可用时正常发送,kafkabr
- python删除字符串str中指定位置字符,pythonstr,原程序是这
- python scrapy抓取时302重定向的问题,pythonscrapy,我用scra
- scrapy框架采集时如何快速避开重复数据?,scrapy框架采集
评论关闭