Spark Streaming的实时词频和累加词频统计，sparkstreaming

文章由Byrx.net分享于2019-06-06 09:06:49评论（231）

（注：运行环境是Ubuntu16， pycharm）

1、

按时段统计：获取scoket端口传输的数据（英文数据即可，方便分词），统计各个时间段内每个单词出现的次数（每个时间段都分别统计，需要使用的关键的DStream成员函数：flatMap, map, reduceByKey）。

checkpoint是设置检查点，实时统计不需设置，累加统计时需要。

运行结果：

打开terminal ，输入：nc -lp 9999 回车（9999是端口号，可以是随意的数字，但是要与第5行代码设置的端口号一致）

控制台输出的结果：

2、

累加统计：获取scoket端口传输的数据（英文数据即可，方便分词），统计历史时间段内每个单词累计出现的次数（所有时间段都共一个统计数，需要使用的关键的DStream成员函数：flatMap, map, updateStateByKey）。

（导入的包、实例化、设置端口与上一步一致，且要设置检查点，设置命令看上一步第6行代码）

运行结果：

热门文章：