能不能解释一下hadoop中的mapreduce,hadoopmapreduce,现在要完成一项海量数据处
能不能解释一下hadoop中的mapreduce,hadoopmapreduce,现在要完成一项海量数据处
现在要完成一项海量数据处理的工作。
大约有500G的.gz log文件
现在要从log中提取一些信息做统计工作~
因为文件太大,所以打算用hadoop来做。
现在已经安装了hadoop,然后需要自己写mapreduce
打算用脚本来写,比如shell,python。
可是因为刚入手,所以对mapreduce不是很理解。
不知哪位高手能用生动的语言解释一下什么事mapreduce,对于我这个问题来说,mapreduce有分别起到什么作用呢?
编橙之家文章,
相关内容
- 有哪些支持C语言的流化程序(类似protobuf/thirft这种)?,
- rq总是No module named XX,rqnamed,使用python rq作
- Flask-Login中@login_manager.user_loader是做什么的?,,不明白
- 使用eventlet之后反而性能更差的一组测试例子,求解为
- db.session.commit()的时候抛出sqlalchemy.exc.IntegrityError错误?
- Flask-admin 中如何把两个关联的Model在同一个View中显示在
- 想做一个“去哪儿”那种垂直搜索的在线工具,应该选
- uwsgi配置导致500错误,提示no python application found,uwsg
- 11w行的excel用python pyodbc读后写入sqlserver,11wpyodbc,#根据
- 用nginx+uwsgi+python+flask/django部署3个web,使用supervisor监控
评论关闭