hadoop - 起风了

Hadoop学习笔记—15.HBase框架学习（基础实践篇）

2020/09/17 | hadoop | 评论(0) | 阅读(57)

一、HBase的安装配置 1.1 伪分布模式安装　　伪分布模式安装即在一台计算机上部署HBase的各个角色，HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。　　首先，准备好HBase的安装包，我这里使用的是HBase-0.94.7的版本，已经上传至百度网盘之中（URL：http://pan.baidu.com/s/1pJ3HTY7）　　...

Hadoop学习笔记—16.Pig框架学习

2020/09/17 | hadoop | 评论(0) | 阅读(74)

一、关于Pig：别以为猪不能干活 1.1 Pig的简介　　Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 Compare：相比Java的MapRe...

Hadoop学习笔记—18.Sqoop框架学习

2020/09/17 | hadoop | 评论(0) | 阅读(66)

一、Sqoop基础：连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念　　　　Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程，云管理员们能够利...

Hadoop学习笔记—17.Hive框架学习

2020/09/17 | hadoop | 评论(0) | 阅读(71)

一、Hive：一个牛逼的数据仓库 1.1 神马是Hive？　　Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL&...

Hadoop学习笔记—19.Flume框架学习

2020/09/17 | hadoop | 评论(0) | 阅读(57)

START：Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统，日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称，泛指文件、操作记录等许多数据。一、Flume基础理论 1.1 常见的分布式日志收集系统　　Scribe是facebook开源的日志收集系统，在facebook内部已经得到...

Hadoop入门学习笔记总结系列文章导航

2020/09/17 | hadoop | 评论(0) | 阅读(43)

一、为何要学习Hadoop? 　　这是一个信息爆炸的时代。经过数十年的积累，很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一，怎样从累积的数据里寻找价值，变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据，如果求助于昂贵的专用主机甚...

Hadoop学习笔记—20.网站日志分析项目案例（三）统计分析

2020/09/17 | hadoop | 评论(0) | 阅读(71)

网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例（三）统计分析：当前页面一、借助Hive进行统计 1.1 准备工作：建立分区表　　为了能够借助Hive进...

Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍

2020/09/17 | hadoop | 评论(0) | 阅读(68)

网站日志分析项目案例（一）项目介绍：当前页面网站日志分析项目案例（二）数据清洗：http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例（三）统计分析：http://www.cnblogs.com/edisonchou/p/4464349.html 一、项目背景与数据情况 1.1 项目来源　　本次要实践的数据日志来源于国...

Hadoop学习笔记—20.网站日志分析项目案例（二）数据清洗

2020/09/17 | hadoop | 评论(0) | 阅读(90)

网站日志分析项目案例（一）项目介绍：http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例（二）数据清洗：当前页面网站日志分析项目案例（三）统计分析：http://www.cnblogs.com/edisonchou/p/4464349.html 一、数据情况分析 1.1 数据情况回顾　　该论坛数据有两部分：　　（1）...

Hadoop学习笔记—21.Hadoop2的改进内容简介

2020/09/15 | hadoop | 评论(0) | 阅读(88)

Hadoop2相比较于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了很大的提高，Hadoop2中有两个重要的变更：（1）HDFS的NameNode可以以集群的方式布署，增强了NameNodes的水平扩展能力和高可用性，分别是:HDFS Federation与HA；（2）MapReduce将JobTracker中的资源管理...