想做个python微博爬虫用API好还是自己开发好,pythonapi,希望各位朋友帮忙给下建议


希望各位朋友帮忙给下建议!
谢谢~

看你的需求了,如果是为了学习微博的API自然用API,如果是想学习web爬虫就自己爬,如果是为了其他的目的,数据挖掘这块纯粹是“获得数据”这个目的,我觉得还是API好点(方便很多哦)。

鉴于微博 API 有频率限制,你可以用一个帐号申请多个未上线应用来进行爬虫。
因为我觉得 200次/小时 是不能满足爬虫的需要的。但是10*200次/小时应该就能满足基本需要了。
不过我觉得新浪很快就发现你是爬虫的,他们会不定时审核的,所以 LZ小心点吧。

首先说一句,你这问题真是问的有点让人吐槽无力,重点就是一句话”有过相关开发经验的朋友,一般是直接使用相关API还是完全自己开发呢?“还写了这么多,最重要的是题目!为什么题目不把这句重点放上或者这句的意思也要表达出来啊!建议去看看提问的智慧

然后回答一下你的问题,虽然API有频率限制但是相比较自己抓取来说方便很多,一般API有的功能都直接用API,如果实在没有或者API让人无法忍受的话,才会考虑自己抓取或模拟什么的。因为后者怎么说相对前者来说还是比较麻烦的。

一般来说只要不是太过于复杂的功能都可以用API实现,个人建议如果不是万不得已还是尽量用API。

关于API频率调用的问题,如果你仅仅是为了实现一些简单的功能(比如定时微博,微博关键字抓取),那么你是完全不需要考虑调用频率的问题(渣浪对于测试应用的API调用频率限制得不多)。当然,如果你是需要做一个有一定PV的上线应用,肯定得申请上线。

编橙之家文章,

评论关闭