纵有疾风起
人生不言弃

hadoop

Hadoop学习笔记—12.MapReduce中的常见算法-起风网

Hadoop学习笔记—12.MapReduce中的常见算法

Ambition阅读(335)评论(0)

一、MapReduce中有哪些常见算法   (1)经典之王:单词计数     这个是MapReduce的经典案例,经典的不能再经典了!   (2)数据去重     ”数据去重”主要是为了掌握和利用并行化思想来对数据进...

Hadoop学习笔记—11.MapReduce中的排序和分组-起风网

Hadoop学习笔记—11.MapReduce中的排序和分组

晁然然然然阅读(294)评论(0)

一、写在之前的 1.1 回顾Map阶段四大步骤   首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行:   从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照ke...

CreateFolder

vicky阅读(568)评论(0)

import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configur...

Hadoop学习笔记—19.Flume框架学习-起风网

Hadoop学习笔记—19.Flume框架学习

Bodyontheocean阅读(318)评论(0)

START:Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称,泛指文件、操作记录等许多数据。 一、Flume基础理论 1.1 常见的分...

Hadoop学习笔记—10.Shuffle过程那点事儿-起风网

Hadoop学习笔记—10.Shuffle过程那点事儿

acacia阅读(332)评论(0)

一、回顾Reduce阶段三大步骤   在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示:   其中,Step2.1就是一个Shuffle操作,它针对多个map任...

Hadoop入门学习笔记总结系列文章导航-起风网

Hadoop入门学习笔记总结系列文章导航

deee阅读(307)评论(0)

一、为何要学习Hadoop?   这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速...