怎么做能把抓取到的信息变成多列形式保存在tsv上,多列tsv,爬虫抓取的资料想分列存取
怎么做能把抓取到的信息变成多列形式保存在tsv上,多列tsv,爬虫抓取的资料想分列存取
爬虫抓取的资料想分列存取在tsv上,试过很多方式都没有办法成功存存取成两列资讯。
想存取为数字爬取的资料一列,底下类型在第二列
from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport csvhtml = urlopen("http://www.app12345.com/?area=tw&store=Apple%20Store")bs0bj = BeautifulSoup (html)def GPname(): GPnameList = bs0bj.find_all("dd",{"class":re.compile("ddappname")}) str = '' for name in GPnameList: str += name.get_text() str += '\n' print(name.get_text()) return strdef GPcompany(): GPcompanyname = bs0bj.find_all("dd",{"style":re.compile("color")}) str = '' for cpa in GPcompanyname: str += cpa.get_text() str += '\n' print(cpa.get_text()) return strwith open('0217.tsv','w',newline='',encoding='utf-8') as f: f.write(GPname()) f.write(GPcompany())f.close()
可能对zip不熟悉,存取下来之后变成一个字一格
也找到这篇参考,但怎么尝试都没有办法成功
https://segmentfault.com/q/10...
写csv文件简单点 你的结构数据要成这样 [["1. 東森新聞雲","新聞"],["2. 創世黎明(Dawn of world)","遊戲"]]
from urllib import urlopenfrom bs4 import BeautifulSoupimport reimport csvhtml = urlopen("http://www.app12345.com/?area=tw&store=Apple%20Store")bs0bj = BeautifulSoup (html)GPnameList = [name.get_text() for name in bs0bj.find_all("dd",{"class":re.compile("ddappname")})]GPcompanyname = [cpa.get_text() for cpa in bs0bj.find_all("dd",{"style":re.compile("color")})]data = '\n'.join([','.join(d) for d in zip(GPnameList, GPcompanyname)])with open('C:/Users/sa/Desktop/0217.csv','wb') as f: f.write(data.encode('utf-8'))
编橙之家文章,
相关内容
- Python执行sudo python test.py语句找不到模块,sudotest.py,在
- 请大神帮看下源码,Django运行出现错误自检排除环境配置
- Python如可读取Java DataOutputStream文件求方法,,漫长的训练
- python3中调用opencv方法如何实现,python3opencv,请问各位高
- Python管理员权限问题求助,python问题求助,今天在工作的
- django内部的model字段在保存的时候如何做预处理?,d
- python关闭创建的多线程后源码如何写?,python多线程,p
- Python安装pycurl不能打开共享对象文件怎么解决,,Impor
- 求教大牛看下这个python类方法的作用是什么,大牛pyt
- python压缩格式pcm音频转wav格式方法是什么,pythonpcm,A-
评论关闭