python re抓站存数据问题。,pythonre,喜欢看日乎日报,就像把他
python re抓站存数据问题。,pythonre,喜欢看日乎日报,就像把他
喜欢看日乎日报,就像把他们采集下来方便以后看。
但是碰到这样的目标:http://daily.zhihu.com/story/4692091
采集回来存数据库的时候,只存第一个条目.
需要标题和内容,使用的是scrapy和re.compile方法。
如何将标题和内容一一对应,并全部存入数据库。
练习python中...
采集代码:
...... item = ShenhuifuItem() sites = response.body i = sites items = [] item['bid']=re.compile('(\d+)').findall(response.url)[0] item['title']=re.compile(r'<h2 class="question-title">(.*?)</h2>').findall(i) item['content']=re.compile(r'<div class="content">(.*?)</div>',re.DOTALL).findall(i) item['author']=re.compile(ur'<span class="author">(.*?)</span>').findall(i) for title in item['title']: item['title'] = title for content in item['content']: item['content'] = content for author in item['author']: if "," in author: item['author'] = author[:-1] else: item['author']=author items.append(item) yield item
编橙之家文章,
相关内容
- django 如何让其他页面引用最新文章列表,django文章列表
- Python中__init__.py如何使用?,python__init__.py,2015/8/26 一
- django 如何根据时间统计数据库中的数据?,django数据库
- Sublime如何切换补全的候选项?,sublime切换补全,sublim
- 大家用doctest时中文有问题吗?怎么解决的,doctest中文
- Bluepoint 实现二级域名,bluepoint二级域名,flask 中bluep
- Python list内容的改变问题,pythonlist,Pyhton 新手。今天
- rails入门时的NoMethodError in Articles#show,,刚刚入门rails,
- Mac下无法用PyCharm建立默认文件结构的Flask项目,,使用
- python selenium,当前窗口跳转在返回原页面,cache被清空
评论关闭