Python scrapy xpath过滤器如何按顺序取出文本节点和图片节点,,Hi,all:我最近在用
Python scrapy xpath过滤器如何按顺序取出文本节点和图片节点,,Hi,all:我最近在用
Hi,all:
我最近在用scrapy在爬取一些网站的内容。需求大致是,完整的爬取网页的内容,要保证网页的文字、图片和视频位置都不发生变化。
我用xpath的语法,比如rootNode.xpath('./p'),这样是能够筛选出所有的p节点,而且跟网页的顺序是一致的。但是有个问题,就是有几个p节点,本来里面的html结构是这样的,<p><img ../></p>,抓取出来后的结果却变成<p></p>。就是说,我在用p节点的时候,xpath好像就已经过滤掉image节点了。
我查阅了xpath的一些链接描述文档,实在没找到合适的方法。
不知道大家怎么解决类似的问题?
编橙之家文章,
相关内容
- Python模拟登陆请求地址要返回302如何实现,python302,ph
- wxpython获得服务器response有什么方法,wxpythonresponse,打算
- 求Python实现从上下文中判断英文单词是形容词还是名词
- 求python Tkinter在canvas上点击添加图片实现方法,,想要实
- Python nltk中提取名词短语用什么方法,pythonnltk,例如:
- Python BaseHTTPServer发送Cookies原理是?,,小弟最近遇到一个
- Python tkinter读取文件调用openFile函数报错,tkinteropenfil
- 安装nltk出现AssertionError错误是什么问题,nltkassertioner
- Python3 console中文直接打印正常,显示却是乱码,python
- py2exe打包运行时才加载py文件该如何解决,py2exepy,在一
评论关闭