网易新闻小爬虫.v0.1,网易新闻爬虫.v0.1,Python语言: 网易
文章由Byrx.net分享于2019-03-23 09:03:13
网易新闻小爬虫.v0.1,网易新闻爬虫.v0.1,Python语言: 网易
Python语言: 网易新闻小爬虫.v0.1#coding:utf-8#---------------------------------------# 网易新闻小爬虫# 简介 : 通过分析 www.163.com ,分析其中以 News.163.com 开头的链接# 获取 各链接的内容,并合并到 1.txt 以便查看各新闻。# 由于 163 新闻的格式不是非常统一,所以只能说大部分可以自动下载。#---------------------------------------import re, urllibstrTitle = ""strTxtTmp = ""strTxtOK = ""f = open("163News.txt", "w+")m = re.findall(r"news\\.163\\.com/\\d.+?<\\/a>",urllib.urlopen("<a href="http://www.163.com">http://www.163.com").read(),re.M)for i in m: testUrl = i.split('"')[0] if testUrl[-4:-1]=="htm": # 合并标题头内容 strTitle = strTitle + "\\n" + i.split('"')[0] + i.split('"')[1] # 重新组合链接 okUrl = i.split('"')[0] UrlNews = '' UrlNews = "<a href="http://">http://" + okUrl print UrlNews # 查找分析链接里面的正文内容,但是由于 163 新闻的格式不是非常统一,所以只能说大部分可以。 # 整理去掉部分 html 代码,让文本更易于观看。 n = re.findall(r"<P style=.TEXT-INDENT: 2em.>(.*?)<\\/P>",urllib.urlopen(UrlNews).read(),re.M) for j in n: if len(j)<>0: j = j.replace(" ","\\n") j = j.replace("<STRONG>","\\n_____") j = j.replace("</STRONG>","_____\\n") strTxtTmp = strTxtTmp + j + "\\n" strTxtTmp = re.sub(r"<a href=(.*?)>", r"", strTxtTmp) strTxtTmp = re.sub(r"<\\/[Aa]>", r"", strTxtTmp) # 组合链接标题和正文内容 strTxtOK = strTxtOK + "\\n\\n\\n===============" + i.split('"')[0] + i.split('"')[1] + "===============\\n" + strTxtTmp strTxtTmp = "" print strTxtOK# 全部分析完成后,写入文件,关闭f.write(strTitle + "\\n\\n\\n" + strTxtOK)f.close()#该片段来自于http://byrx.net
评论关闭