纵有疾风起
人生不言弃

hadoop

Hadoop学习笔记—14.ZooKeeper环境搭建-起风网

Hadoop学习笔记—14.ZooKeeper环境搭建

付鹏FuPeng阅读(357)评论(0)

从字面上来看,ZooKeeper表示动物园管理员,这是一个十分奇妙的名字,我们又想起了Hadoop生态系统中,许多项目的Logo都采用了动物,比如Hadoop采用了大象的形象,所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作...

Hadoop学习笔记—12.MapReduce中的常见算法-起风网

Hadoop学习笔记—12.MapReduce中的常见算法

Ambition阅读(314)评论(0)

一、MapReduce中有哪些常见算法   (1)经典之王:单词计数     这个是MapReduce的经典案例,经典的不能再经典了!   (2)数据去重     ”数据去重”主要是为了掌握和利用并行化思想来对数据进...

Hadoop学习笔记—11.MapReduce中的排序和分组-起风网

Hadoop学习笔记—11.MapReduce中的排序和分组

晁然然然然阅读(276)评论(0)

一、写在之前的 1.1 回顾Map阶段四大步骤   首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行:   从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照ke...

Hadoop学习笔记—10.Shuffle过程那点事儿-起风网

Hadoop学习笔记—10.Shuffle过程那点事儿

acacia阅读(310)评论(0)

一、回顾Reduce阶段三大步骤   在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示:   其中,Step2.1就是一个Shuffle操作,它针对多个map任...

Hadoop学习笔记—7.计数器与自定义计数器-起风网

Hadoop学习笔记—7.计数器与自定义计数器

acacia阅读(266)评论(0)

一、Hadoop中的计数器 计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。   例如,我们有一个文件,其中包含如下内...

Hadoop学习笔记—6.Hadoop Eclipse插件的使用-起风网

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

chorme阅读(292)评论(0)

开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为...