hadoop

排序

CreateFolder

2020-09-17vicky阅读(557)评论(0)

import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configur...

一、关于Pig：别以为猪不能干活 1.1 Pig的简介　　Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapRedu...

2020-09-17Ambition阅读(314)评论(0)

一、MapReduce中有哪些常见算法　　（1）经典之王：单词计数　　　　这个是MapReduce的经典案例，经典的不能再经典了！　　（2）数据去重　　　　”数据去重”主要是为了掌握和利用并行化思想来对数据进...

开篇：在本笔记系列的第一篇中，我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在，我们来了解一下在一个Hadoop分布式集群中，如何动态（不关机且正在运行的情况下）地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境...

一、神马是高大上的MapReduce 　　MapReduce是Google的一项重要技术，它首先是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。但对许多开发者来说，自己完完全全实现一个并行计算程序...

2020-09-17acacia阅读(267)评论(0)

一、Hadoop中的计数器计数器：计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器，用来记录数据或者进度的变化情况，它比日志更便利进行分析。　　例如，我们有一个文件，其中包含如下内...

2020-09-17acacia阅读(314)评论(0)

一、回顾Reduce阶段三大步骤　　在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步骤，其中在Reduce阶段总共三个步骤，如下图所示：　　其中，Step2.1就是一个Shuffle操作，它针对多个map任...

2020-09-17chorme阅读(294)评论(0)

开篇：Hadoop是一个强大的并行软件开发框架，它可以让任务在分布式集群上并行处理，从而提高执行效率。但是，它也有一些缺点，如编码、调试Hadoop程序的难度较大，这样的缺点直接导致开发人员入门门槛高，开发难度大。因此，Hadop的开发者为...

2020-09-15vicky阅读(368)评论(0)

Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：（1）HDFS的NameNode可以以集群的方式布署，增强了NameN...

一、HBase的安装配置 1.1 伪分布模式安装　　伪分布模式安装即在一台计算机上部署HBase的各个角色，HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。　　首先，准备好HBase的安装包，我这...