hadoop - 起风了

Hadoop学习笔记—15.HBase框架学习（基础知识篇）

2020/09/17 | hadoop | 评论(0) | 阅读(83)

HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。一、HBase：BigTable的开源实现 1.1 HBase出现的背景　　（1）随着数据规模越来越大，大量业务场景开始考...

Hadoop学习笔记—14.ZooKeeper环境搭建

2020/09/17 | hadoop | 评论(0) | 阅读(82)

从字面上来看，ZooKeeper表示动物园管理员，这是一个十分奇妙的名字，我们又想起了Hadoop生态系统中，许多项目的Logo都采用了动物，比如Hadoop采用了大象的形象，所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。一、ZooKeeper基础介绍 1.1 动物园也要保障安全　　zookeeper是hadoop下面的一...

Hadoop学习笔记—13.分布式集群中节点的动态添加与下架

2020/09/17 | hadoop | 评论(0) | 阅读(42)

开篇：在本笔记系列的第一篇中，我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在，我们来了解一下在一个Hadoop分布式集群中，如何动态（不关机且正在运行的情况下）地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境结构　　本次试验，我们构建的集群是一个主节点，三个从节点的结构，其中三...

Hadoop学习笔记—12.MapReduce中的常见算法

2020/09/17 | hadoop | 评论(0) | 阅读(117)

一、MapReduce中有哪些常见算法　　（1）经典之王：单词计数　　　　这个是MapReduce的经典案例，经典的不能再经典了！　　（2）数据去重　　　　"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉...

Hadoop学习笔记—11.MapReduce中的排序和分组

2020/09/17 | hadoop | 评论(0) | 阅读(39)

一、写在之前的 1.1 回顾Map阶段四大步骤　　首先，我们回顾一下在MapReduce中，排序和分组在哪里被执行：　　从上图中可以清楚地看出，在Step1.4也就是第四步中，需要对不同分区中的数据进行排序和分组，默认情况下，是按照key进行排序和分组。 1.2 实验场景数据文件　　在一些特定的数据文件中，不一定...

Hadoop学习笔记—10.Shuffle过程那点事儿

2020/09/17 | hadoop | 评论(0) | 阅读(58)

一、回顾Reduce阶段三大步骤　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步骤，其中在Reduce阶段总共三个步骤，如下图所示：　　其中，Step2.1就是一个Shuffle操作，它针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上，这个过程就称作为Shuff...

Hadoop学习笔记—9.Partitioner与自定义Partitioner

2020/09/17 | hadoop | 评论(0) | 阅读(66)

一、初步探索Partitioner 1.1 再次回顾Map阶段五大步骤　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步骤，如下图所示：　　其中，step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对<key, value>，是需要送到Reducer去合并的...

Hadoop学习笔记—8.Combiner与自定义Combiner

2020/09/17 | hadoop | 评论(0) | 阅读(126)

一、Combiner的出现背景 1.1 回顾Map阶段五大步骤　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步骤，如下图所示：　　其中，step1.5是一个可选步骤，它就是我们今天需要了解的 Map规约阶段。现在，我们再来看看前一篇博文《计数器与自定义计数器》中的第...

Hadoop学习笔记—7.计数器与自定义计数器

2020/09/17 | hadoop | 评论(0) | 阅读(75)

一、Hadoop中的计数器计数器：计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器，用来记录数据或者进度的变化情况，它比日志更便利进行分析。　　例如，我们有一个文件，其中包含如下内容： hello youhello me 　　它被WordCount程序执行后显...

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

2020/09/17 | hadoop | 评论(0) | 阅读(66)

开篇：Hadoop是一个强大的并行软件开发框架，它可以让任务在分布式集群上并行处理，从而提高执行效率。但是，它也有一些缺点，如编码、调试Hadoop程序的难度较大，这样的缺点直接导致开发人员入门门槛高，开发难度大。因此，Hadop的开发者为了降低Hadoop的难度，开发出了Hadoop Eclipse插件，它可以直接嵌入...