Python爬虫框架哪个最好用最简单,python爬虫框架,想使用python爬虫框
Python爬虫框架哪个最好用最简单,python爬虫框架,想使用python爬虫框
想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~
另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维?
http://www.oschina.net/p/scrapy
scrapy 爬虫框架。纯python实现
scrapy是python里面比较好的爬虫框架。支持自定义Item,pipeline数据管道。在spider中可以指定domain,以及相应的Rule规则,支持xpath对DOM的解析等内容
而且scrapy还有自己的shell,可以在上面方便调试和查看结果。总之内容很多,功能很强大...
基本上scrapy做的已经非常完善了。不过不支持动态载入js解析js中的ajax请求。scrapyjs在此基础之上实现了模拟浏览器动态行为。
我写的这个配置文档
包括了Windows和CentOS 6.4下面的配置过程。可以作为一个参考。(不过有些库是我自己用到的,不一定需要安装..比如upyun...progressbar神马的)
via : stackoverflow
scrapy略重型了,如果自己写的话,可以用自带的urllib2,也可以用requests,解析可以使用lxml,BeautifulSoup,实现动态解析,还有splinter等框架,还可以用threading模块实现多线程,或者使用协程框架gevent。
自己写框架,
无外乎请求/渲染,解析,存储,队列任务,WebUI之类,
本人的框架可以干翻携程
神箭手云爬虫
编橙之家文章,
相关内容
- Python除scrapy外,还有哪些优秀开源爬虫抓取框架工具呢
- Python编程语言和python脚本到底有什么区别?,python编程
- Python编译器怎么样处理tab和空格缩进问题,pythontab,设计
- Python项目引入第三方库好还是自己造轮子好?,python轮子
- Flask开源cms有哪些值得学习参考,flask开源cms值得,考虑
- Django显示文章摘要需要如何写,Django显示文章摘要,需要
- Python解密问题,js RSA加密后再PY里解密行得通吗?,rsapy
- opencv python适合做面部识别吗?代码如何写,opencvpython,哪
- flask中sqlite查询、新增、修改如何实现,flasksqlite,对数
- 求jQuery对服务器申请运行python脚本方法,jquerypython,$(
评论关闭