未加星标

Hadoop之MapReduce实战

字体大小 | |
[数据库(综合) 所属分类 数据库(综合) | 发布者 店小二05 | 时间 2019 | 作者 红领巾 ] 0人收藏点击收藏

原文地址: itweknow.cn/detail?id=6… ,欢迎大家访问。

MapReduce是一种编程模型,"Map(映射)"和"Reduce(归约)",是它们的主要思想,我们通过Map函数来分布式处理输入数据,然后通过Reduce汇总结果并输出。其实这个概念有点类似于我们Java8中的StreamApi,有兴趣的同学也可以去看看。

MapReduce任务过程分为两个处理阶段,map阶段和reduce阶段。每个阶段都以键-值对作为输入输出,键和值的类型由我们自己指定。通常情况map的输入内容键是LongWritable类型,为某一行起始位置相对于文件起始位置的偏移量;值是Text类型,为该行的文本内容。

前提条件 一个maven项目。 一台运行着hadoop的linux机器或者虚拟机,当然了hadoop集群也可以,如果你还没有的话可以戳这里。

我们编写一个MapReduce程序的一般步骤是:(1)map程序。(2)reduce程序。(3)程序驱动。下面我们就根据这个顺序来写一个简单的示例,这个例子是用来统计文件中每个字符出现的次数并输出。

项目依赖

我们先来解决一下依赖问题,在 pom.xml 中添加如下内容。

<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>${hadoop.version}</version> </dependency> 复制代码 Map程序

我们继承 Mapper 类并重写了其map方法。Map阶段输入的数据是从hdfs中拿到的原数据,输入的key为某一行起始位置相对于文件起始位置的偏移量,value为该行的文本。输出的内容同样也为键-值对,这个时候输出数据的键值对的类型可以自己指定,在本例中key是Text类型的,value是LongWritable类型的。输出的结果将会被发送到reduce函数进一步处理。

public class CharCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> { @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 将这一行文本转为字符数组 char[] chars = value.toString().toCharArray(); for (char c : chars) { // 某个字符出现一次,便输出其出现1次。 context.write(new Text(c + ""), new LongWritable(1)); } } } 复制代码 Reduce程序

我们继承 Reducer 类并重写了其reduce方法。在本例中Reduce阶段的输入是Map阶段的输出,输出的结果可以作为最终的输出结果。相信你也注意到了,reduce方法的第二个参数是一个Iterable,MapReduce会将map阶段中相同字符的输出汇总到一起作为reduce的输入。

public class CharCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> { @Override protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException { long count = 0; for (LongWritable value : values) { count += value.get(); } context.write(key, new LongWritable(count)); } } 复制代码 驱动程序

到目前为止,我们已经有了map程序和reduce程序,我们还需要一个驱动程序来运行整个作业。可以看到我们在这里初始化了一个Job对象。Job对象指定整个MapReduce作业的执行规范。我们用它来控制整个作业的运作,在这里我们指定了jar包位置还有我们的 Map 程序、 Reduce 程序、 Map 程序的输出类型、整个作业的输出类型还有输入输出文件的地址。

public class CharCountDriver { public static void main(String[] args) throws Exception { Configuration configuration = new Configuration(); Job job = Job.getInstance(configuration); // Hadoop会自动根据驱动程序的类路径来扫描该作业的Jar包。 job.setJarByClass(cn.itweknow.mr.CharCountDriver.class); // 指定mapper job.setMapperClass(CharCountMapper.class); // 指定reducer job.setReducerClass(CharCountReducer.class); // map程序的输出键-值对类型 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(LongWritable.class); // 输出键-值对类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); // 输入文件的路径 FileInputFormat.setInputPaths(job, new Path(args[0])); // 输入文件路径 FileOutputFormat.setOutputPath(job, new Path(args[1])); boolean res = job.waitForCompletion(true); System.exit(res?0:1); } } 复制代码

你会发现我们初始化了一个空的Configuration,但是并没有进行任何的配置,其实当我们将其运行在一个运行着hadoop的机器上时,它会默认使用我们机器上的配置。在后续的文章中我也会写一下如何在程序中进行配置。

本文数据库(综合)相关术语:系统安全软件

分页:12
转载请注明
本文标题:Hadoop之MapReduce实战
本站链接:https://www.codesec.net/view/628260.html


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 数据库(综合) | 评论(0) | 阅读(38)