纵有疾风起
人生不言弃

hadoop

CreateFolder

vicky阅读(557)评论(0)

import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configur...

Hadoop学习笔记—16.Pig框架学习-起风网

Hadoop学习笔记—16.Pig框架学习

男闺蜜尚淼阅读(299)评论(0)

一、关于Pig:别以为猪不能干活 1.1 Pig的简介   Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapRedu...

Hadoop学习笔记—12.MapReduce中的常见算法-起风网

Hadoop学习笔记—12.MapReduce中的常见算法

Ambition阅读(314)评论(0)

一、MapReduce中有哪些常见算法   (1)经典之王:单词计数     这个是MapReduce的经典案例,经典的不能再经典了!   (2)数据去重     ”数据去重”主要是为了掌握和利用并行化思想来对数据进...

Hadoop学习笔记—4.初识MapReduce-起风网

Hadoop学习笔记—4.初识MapReduce

Thedreamofyou阅读(529)评论(0)

一、神马是高大上的MapReduce   MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序...

Hadoop学习笔记—7.计数器与自定义计数器-起风网

Hadoop学习笔记—7.计数器与自定义计数器

acacia阅读(267)评论(0)

一、Hadoop中的计数器 计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。   例如,我们有一个文件,其中包含如下内...

Hadoop学习笔记—10.Shuffle过程那点事儿-起风网

Hadoop学习笔记—10.Shuffle过程那点事儿

acacia阅读(314)评论(0)

一、回顾Reduce阶段三大步骤   在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示:   其中,Step2.1就是一个Shuffle操作,它针对多个map任...

Hadoop学习笔记—6.Hadoop Eclipse插件的使用-起风网

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

chorme阅读(294)评论(0)

开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为...

Hadoop学习笔记—21.Hadoop2的改进内容简介-起风网

Hadoop学习笔记—21.Hadoop2的改进内容简介

vicky阅读(368)评论(0)

Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更: (1)HDFS的NameNode可以以集群的方式布署,增强了NameN...