想用Python写个智能爬虫爬取网页文章内容,请有经验的大神给个思路,python爬虫,相關問題:如何提取網頁正
想用Python写个智能爬虫爬取网页文章内容,请有经验的大神给个思路,python爬虫,相關問題:如何提取網頁正
相關問題:如何提取網頁正文
最近写了一个爬虫 都过正则来匹配一个文章的内容这样有些麻烦,每个网站都要写正则。
1,怎么智能的实现网页文章内容的爬取?需要怎么做?
eg:
http://www.cnbeta.com/articles/385387.htm
http://www.ifanr.com/512005
2,抓取完以后怎么提取文章的标签?用于后于后面的相似文章推荐。
python中有scrapy框架,很不错,还有一个scrapinghub的云平台,可以省掉你的很多工作;
至于抓取标签,就涉及分类和聚类算法,这里面就有很多选择了
第一個問題和已有問題重複:如何识别並提取网页正文?。
第二個問題我寫過簡單的分詞算法,順便把出現頻率高的詞作爲關鍵詞提取了。即便是非常簡單的算法,對大多數網頁效果也還不錯。
不過分詞算法有很多現成的,你可以搜;
關鍵詞提取有很多現成的,你可以搜。。。
第二問貌似也與已有問題重複。
推荐大家使用下神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。
python中有 pyquery
php有 phpquery
都很方便用jquery语法处理,
数据量不大的话,用 readability 的 api,省事。
https://www.readability.com/developers/api/parser
我之前用php写过一个采集插件。你这个叫网页正文提取。
算法大概如下:
1、把网页分解成很多DOM块。
2、分解的dom块。你要用一定的标准去丢弃,排除。比如有些dom快里面,都是大堆的链接这个一般是列表。可以丢弃。还有 算出文本密度(文本/html)的比值。比如(span,p,a,font)等标签所占的百分比。等等,经过多重过滤,最终会留下不多的几个dom块。再按照一定的规则过滤掉。正确率会比较高。
最重要的一个值也可以作为参考,我在一篇论文里面看到,用一段文字里面的句号多少来判定。
如果一大段文字里面,句号出现很多,那这个dom快很可能是内容快。
建议不要用正则来做html解析,学习一下lxml,然后在chrome浏览器的开发这模式就可以复制对应DOM节点的xpath直接在lxml,省了很多事,而且lxml解析html,xml性能杠杠的
写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。
我之前写过一个java版的爬虫(Gworm),提出一点拙见,如果随便给你一个网址,智能的提取出网页的文章部分还是很困难的(也不是没方法吧,要用到统计概率的方法,也不能做到百分之百正确)。所以我之前的方案是使用css选择器提取内容,而不自己手写正则表达式,一个网站的css样式名一般都是很稳定的,这样一来一个网站的所有文章只需要一个提取规则,而且你第二个问题,获取文章标签,使用css选择器也可以轻松解决。介于题主使用python爬取,我不清楚python有什么库可以提供对DOM进行css选择的功能,但我相信一定是有的,对应我使用java版css选择器是Jsoup。
更新:刚google一下“python css selector”一大把结果。看下这篇文章吧https://pythonhosted.org/cssselect/。
编橙之家文章,
相关内容
- 请教关于Python 微信嵌套图片问题,,微信JS—S
- Python多进程threading要如何理解,pythonthreading,threading今天
- 擅长java语言学习Python能否更顺利些?,语言学习python,精
- 求Python筛选随机生成数的方法思路,python筛选,有一AP
- python入门如何学习比较好上手,python入门上手,1.有什么
- python数据堵塞时要如何处理,数据生产数度大于处理速度
- 怎么样能快速深入的学会Python语言,学会python语言,专职
- Python文件头部#!/usr/bin/python与#!/usr/bin/env区别是什么,
- 新手学习python从哪个版本开始比较好,新手python,学习
- Python找图片不同算法应该用什么方法,,找茬那种游戏,
评论关闭