hadoop

排序

Hadoop学习笔记—21.Hadoop2的改进内容简介

2020-09-15vicky阅读(371)评论(0)

Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：（1）HDFS的NameNode可以以集群的方式布署，增强了NameN...

从字面上来看，ZooKeeper表示动物园管理员，这是一个十分奇妙的名字，我们又想起了Hadoop生态系统中，许多项目的Logo都采用了动物，比如Hadoop采用了大象的形象，所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作...

一、HBase的安装配置 1.1 伪分布模式安装　　伪分布模式安装即在一台计算机上部署HBase的各个角色，HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。　　首先，准备好HBase的安装包，我这...

一、Combiner的出现背景 1.1 回顾Map阶段五大步骤　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步骤，如下图所示：　　其中，step1.5是一个可选步骤，它就是...

2020-09-17vicky阅读(322)评论(0)

一、Hive：一个牛逼的数据仓库 1.1 神马是Hive？　　Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的...

网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例（二）数据清洗：当前页面网站日志分析项目案例（三）统计分析：http://www.c...

2020-09-17Ambition阅读(318)评论(0)

一、MapReduce中有哪些常见算法　　（1）经典之王：单词计数　　　　这个是MapReduce的经典案例，经典的不能再经典了！　　（2）数据去重　　　　”数据去重”主要是为了掌握和利用并行化思想来对数据进...

2020-09-17acacia阅读(317)评论(0)

一、回顾Reduce阶段三大步骤　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步骤，其中在Reduce阶段总共三个步骤，如下图所示：　　其中，Step2.1就是一个Shuffle操作，它针对多个map任...

网站日志分析项目案例（一）项目介绍：当前页面网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例（三）统计分析：http://www.c...

2020-09-17foreverP阅读(313)评论(0)

HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。一、HBase：BigTa...