用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!,,写在前面考研在即,想
用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!,,写在前面考研在即,想
写在前面
考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方。而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息。虽然网上有很多爬取百度贴吧的教程和例子,但是贴吧规则更新快,目的不一样,爬取的内容也不一样,所以就有了这个工具。
目的
爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云
一、分析
1.1 先查看贴吧的规则,果然有规律,每一页是50条帖子
1.2 帖子内容,也有规律,都在这个标签里面
1.3 判断内容就用百度AI的内容审核,情感分析也用百度AI了,省事
1.4 词云可以先用jieba分词然后再用wordcloud生成,但是后来发现网上有现成的工具
二、爬取过程
2.1 首先解决的一个小问题就是让它自己计算一下每页是50条帖子,我输入1000条它应该去爬取那几个页面,就用这种数学计算就行
2.2爬取过程代码,爬取后就调用内容审核以及情感分析,然后写入文件
def gettbtz(tbname,tznum): ####根据给出的贴吧和帖子数(50的整数倍)获得所有帖子 n = -50 tznum = int(tznum) ###z这里是要根据贴吧的规则,每页显示50条帖子 emotions = 0 while (tznum > n): n = n + 50 print("正在爬取前" + str(n) + "条帖子") url = "http://tieba.baidu.com/f?kw=" + tbname + "&ie=utf-8&pn=" + str(n) soup = BeautifulSoup(requests.get(url).text,'lxml') ###爬取动作 a = soup.find_all('div',class_='threadlist_abs threadlist_abs_onlyline') for a in a: ###接下来以此判断文本是否合规,然后判断情感正向倾向指数,然后写入文件 if BDAITEXT(a.text) == "合规": print("爬取到合规帖子,正在写入文件:" + a.text) with open("resaults.txt","a+",encoding='utf-8') as f: f.write(str(a.text)) ###写入这里特意转换一下数据类型,避免后面发生文本编码错误 try: emotions = emotions + BDAIemotion(a.text) print("当前累计情感指数:" + str(emotions)) except: print("情感分析出错,跳过") else: print("帖子不合规,跳过") time.sleep(10) ###君子协议,10秒暂停 f.close()
三、百度人工智能API调用
3.1 百度AK获取,就是要先到百度AI开发平台注册一个开发者账号,然后创建应用,获取应用id和密钥,然后得到这样一个调用的密钥
# client_id 为官网获取的AK, client_secret 为官网获取的SKhost = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【应用ID】&client_secret=【SK】' response = requests.get(host) if response: print(response.json())
3.2 内容审核API调用
def BDAITEXT(text): ####百度AI文本审核,返回合规或者不合规 content = {"text": text} r = requests.post(BDAItexturl,content).text if r: rback = json.loads(r) return rback["conclusion"]
3.3 情感分析API调用
def BDAIemotion(text): ####百度AI情感分析,返回一个数值 content = {"text": text} content = json.dumps(content) r = requests.post(BDAIemotionurl,content).text if r: rback = json.loads(r) return rback['items'][0]['positive_prob']
四、词云生成
有很多在线工具,导入大段文本,然后根据需要进行文本的过滤、分词,然后设置颜色、样式就可以生成词云。
五、信息分析
看词云,结果不言而喻,提早地准备、丰富的经验、专业课、数学、政治、院校选择…………
从情感上来看,大多数情感指数偏向积极,说明对待考研还是需要一个积极的态度。
运行截图
待改进
1.应该多线程,速度太慢了
2.爬取了帖子,没有爬取评论
3.情感分析有很多出错
“闲言碎语留给市井小民,你只管优雅从容心怀远方”
用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!
相关内容
- 基于python2.7+HTMLTestrunner生成报告后样式美化图版以及源
- Python入门《父与子的编程之旅第2版》+《教孩子学编程
- 新浪微博注册(elenium Python 自动化),,from selen
- Python3 命名空间和作用域,,命名空间先看看官方文
- Python 操作 HBase —— Trift Trift2 Happybase 安装使用,,Pyt
- Linux安装python3,,将所有包都拷贝到li
- 从电商页面埋点说起,,背景互联网发展到现在
- python高级应用程序设计任务,,一、主题式网络爬虫设
- 使用Python发送、订阅消息,,使用Python发送
- Python中安装框架如何换源,,想安装tornado
评论关闭