Python有大数据处理性能优化好方法吗,python性能优化,现在有一个list包含有
Python有大数据处理性能优化好方法吗,python性能优化,现在有一个list包含有
现在有一个list包含有1500个topic,另外一个文件包含一亿个微博数据,现在我想统计,1500个topic中每个topic分别有多少条微博包含它们,我写的代码如下,但是运行起来需要非常久的时间,有什么办法可以优化吗?
f = file("largefile") for line in f: try: tweet_time = line.split(',',3)[2].split()[0] # 微博发布时间 tweet = line.split(',',3)[-1] # 微博内容 for topic in topics: topic_items = topic.split() # 每个topic可能有多个词组成 isContain = True for item in topic_items: if item not in tweet: isContain = False break if isContain: pass # 该微博包含该topic except: continue f.close()
参见:
编橙之家文章,
相关内容
- python requests发送post Page load erro问题,requestserro,post过去
- 想用powershell写命令完成启动软件和调用python脚本怎么做
- mac电脑不支持gbk,python post数据出现乱码怎么破?,gbkpy
- linux下想打包pyqt程序为可执行程序用什么工具?,lin
- python3 snmp都用什么扩展模块,python3snmp,最近用flask弄了
- Python执行mysql语句time时间不正确何解,pythonmysql,类库
- 求Python实现跨平台实现全局性一句话方法,python全局性
- Python引用传递是在什么场景下,python引用传递场景,我写
- 要删除str数据类型中的冒号,用re正则方式应该怎么写
- pymysql语言问题求助,pymysql问题求助,这种方式可以取出
评论关闭