下面小编就为大家分享一篇Java大数据开发Hadoop MapReduce,具有很好的参考价值,希望对大家有所帮助。
目录
- 1 MapRedcue的介绍
- 1.1 MapReduce定义
- 1.2 MapReduce的思想
- 1.3 MapReduce优点
- 1.4 MapReduce的缺点
- 1.5 MapReduce进程
- 1.6 MapReduce-WordCount
- 2 Hadoop序列化
- 2.1 序列化的定义
- 2.2 hadoop序列化和java序列化的区别
- 3 MapReduce 的原理
- 3.1 MapReduce 工作的过程
- 3.2 InputFormat 数据输入
- 3.2.1 切片
- 3.2.2 FileInputFormat
- 3.2.3 TextInputFormat
- 3.2.4 CombineTextInputFormat
- 3.3 MapReduce工作机制
- 3.3.1 MapTask工作机制
- 3.3.2 Partition分区
- 3.3.3 Combiner合并
- 3.3.4 ReduceTask工作机制
- 3.3.5 shuffle机制
- 3.3.6 排序的解释
- 4 数据压缩
1 MapRedcue的介绍
1.1 MapReduce定义
MapReduce是一个进行分布式运算的编程框架,使用户开发基于hadoop进行数据分析的核心框架。 MapReduce 核心功能就是将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的 分布式运算程序,并发运行在一个 Hadoop 集群上。
1.2 MapReduce的思想
MapReduce的思想核心是分而治之,适用于大规模数据处理场景。
map负责分,将复杂的任务拆解成可以并行计算的若干个任务来处理
reduce负责合,对map阶段的结果进行全局汇总
比如说:老师作业留的有点多,一个人写太费劲了,就可以用MapReduce这种分而治之的思想,将作业进行map处理,分给不同的人,最后所有写完的部分发到群里进行reduce汇总,复杂的作业简简单单。
1.3 MapReduce优点
易于编程
MapReduce将做什么和怎么做分开了,提供了一些接口,程序员只需关注应用层上的问题。具体如何实现并行计算任务则被隐藏了起来。
扩展性
当计算资源不足时,可以增加机器来提高扩展能力
高容错
一台机器挂了,可以将计算任务转移到另一台节点上进行
适合PB级海量数据的离线处理
1.4 MapReduce的缺点
不擅长实时计算
无法做到在毫秒级别返回结果
不擅长流式计算
MapReduce处理的数据源只能是静态的,不能动态变化
不擅长DAG(有向无环图)计算
每个MR作业处理结束,结果都会写入到磁盘,造成大量的磁盘IO,导致性能低下
1.5 MapReduce进程
一个MapReduce程序在分布式运行时有三类的实例进程
- MrAppMaster : 负责整个程序的过程调度及状态协调
- MapTask : 负责Map阶段的数据处理流程
- ReduceTask : 负责Reduce阶段的数据处理流程
1.6 MapReduce-WordCount
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
public static class TokenizerMapper
extends Mapper
本站部分内容转载自互联网,如果有网站内容侵犯了您的权益,可直接联系我们删除,感谢支持!