起风了

“路海长 青夜旷 越过群山追斜阳”

Hadoop学习笔记—15.HBase框架学习(基础知识篇)

Hadoop学习笔记—15.HBase框架学习(基础知识篇)缩略图
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据。 一、HBase:BigTable的开源实现 1.1 HBase出现的背景   (1)随着数据规模越来越大,大量业务场景开始考...

Hadoop学习笔记—14.ZooKeeper环境搭建

Hadoop学习笔记—14.ZooKeeper环境搭建缩略图
从字面上来看,ZooKeeper表示动物园管理员,这是一个十分奇妙的名字,我们又想起了Hadoop生态系统中,许多项目的Logo都采用了动物,比如Hadoop采用了大象的形象,所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。 一、ZooKeeper基础介绍 1.1 动物园也要保障安全   zookeeper是hadoop下面的一...

Hadoop学习笔记—13.分布式集群中节点的动态添加与下架

Hadoop学习笔记—13.分布式集群中节点的动态添加与下架缩略图
开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点。 一、实验环境结构   本次试验,我们构建的集群是一个主节点,三个从节点的结构,其中三...

Hadoop学习笔记—12.MapReduce中的常见算法

wordcount
一、MapReduce中有哪些常见算法   (1)经典之王:单词计数     这个是MapReduce的经典案例,经典的不能再经典了!   (2)数据去重     "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉...

Hadoop学习笔记—11.MapReduce中的排序和分组

map stage
一、写在之前的 1.1 回顾Map阶段四大步骤   首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行:   从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。 1.2 实验场景数据文件   在一些特定的数据文件中,不一定...

Hadoop学习笔记—10.Shuffle过程那点事儿

reduce stage
一、回顾Reduce阶段三大步骤   在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示:   其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上,这个过程就称作为Shuff...

Hadoop学习笔记—9.Partitioner与自定义Partitioner

map steps
一、初步探索Partitioner 1.1 再次回顾Map阶段五大步骤   在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示:   其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对<key, value>,是需要送到Reducer去合并的...

Hadoop学习笔记—8.Combiner与自定义Combiner

map section
一、Combiner的出现背景 1.1 回顾Map阶段五大步骤   在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示:   其中,step1.5是一个可选步骤,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文《计数器与自定义计数器》中的第...

Hadoop学习笔记—7.计数器与自定义计数器

Hadoop学习笔记—7.计数器与自定义计数器缩略图
一、Hadoop中的计数器 计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。   例如,我们有一个文件,其中包含如下内容: hello youhello me   它被WordCount程序执行后显...

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

Hadoop学习笔记—6.Hadoop Eclipse插件的使用缩略图
开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为了降低Hadoop的难度,开发出了Hadoop Eclipse插件,它可以直接嵌入...