纵有疾风起
人生不言弃

标签:Hadoop

MapReduce学习笔记-起风网
博客

MapReduce学习笔记

foolsss阅读(363)评论(0)

一、MapReduce概述 MapReduce 是 Hadoop 的核心组成, 是专用于进行数据计算的,是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce由两个阶段组成:Map和Redu...

Hive调优(语法与参数层面优化)-起风网
博客

Hive调优(语法与参数层面优化)

foolsss阅读(331)评论(0)

一、简介 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得...

Pig学习笔记-起风网
博客

Pig学习笔记

foolsss阅读(365)评论(0)

一、Pig简介 Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。 相比 Java 的 MapReduce API ,Pig为...

Flume学习笔记-起风网
博客

Flume学习笔记

foolsss阅读(339)评论(0)

Flume概述 Flume是一个分布式的数据收集系统,具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快,完全可以用于生产环境。 Flume的核心是agent。agent是一个java进程,运行在日志收集端,通过agent**接收...

博客

HDFS学习笔记

foolsss阅读(300)评论(0)

一、分布式文件系统与HDFS 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 这是一种允许文件通过网络...

Hive学习笔记-起风网
博客

Hive学习笔记

foolsss阅读(239)评论(0)

一、什么是Hive Hive 是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL查...