是python的scrapy框架,xpath中可否以插入正则表达式,scrapyxpath,想要爬取一个网站,这个网
是python的scrapy框架,xpath中可否以插入正则表达式,scrapyxpath,想要爬取一个网站,这个网
想要爬取一个网站,这个网站的不同网页的正文部分的xpath是不一样的,比如:
有个页面的正文部分是://*[@id='postmessage_32199']
另一个是://*[@id='postmessage_32153']
......
它们的格式是postmessage_xxxxx,x为数字。
我的问题是:xpath中可以使用用正则表达式吗?如果不能那怎么匹配这么多不同的xpath?
ps:我是用的是python的scrapy框架
提前感谢各位了。
你用 https://github.com/binux/pyspider 我就告诉你
//*[starts-with(@id, "postmessage_")]
或者
doc.xpath(r'//*[re:match(@id, "postmessage_\d+")]', namespaces={"re": "http://exslt.org/regular-expressions"})
编橙之家文章,
相关内容
- 求Python服务器后台间隔自动运行时间设置方法思路,
- django满足条件再输出的列表显示怎么写?,django怎么写
- 列表合并之后原相同数据不被覆盖应该写python源码,
- python新手问httplib和urllib2有哪些不同,httpliburllib2,想从
- python找到最近的字符要如何用正则匹配,python字符匹配
- 大家一起来讨论抽用正则取优酷视频并生成播放器的问
- tornado连接数据库报NameError是编码不对吗,tornadonameerr
- python编辑器vim补全插件vimrc与yum_extra_conf.py文件调试方法
- Python分割字符串如实现最优雅,python分割字符串, 分割
- 求python高手解答python源码中False是什么意思,pythonfals
评论关闭