Hadoop简介 - 起风了

一、Hadoop是什么?
适合大数据的分布式存储与计算平台

二、版本
Apache
官方版本(2.6.0)
Cloudera
使用下载最多的版本，稳定，有商业支持，在Apache的基础上打上了一些patch。推荐使用。
Yahoo
Yahoo内部使用的版本，发布过两次，已有的版本都放到了Apache上，后续不在继续发布，而是集中在Apache的版本上。

三、Hadoop核心项目
HDFS: Hadoop Distributed File System 分布式文件系统
MapReduce：并行计算框架

1、HDFS的架构
主从结构
主节点，只有一个: namenode
从节点，有很多个: datanodes

namenode负责：
接收用户操作请求
维护文件系统的目录结构
管理文件与block之间关系，block与datanode之间关系

datanode负责：
存储文件
文件被分成block存储在磁盘上
为保证数据安全，文件会有多个副本

2、MapReduce的架构
主从结构
主节点，只有一个: JobTracker
从节点，有很多个: TaskTrackers
JobTracker负责：
接收客户提交的计算任务
把计算任务分给TaskTrackers执行
监控TaskTracker的执行情况
TaskTrackers负责：
执行JobTracker分配的计算任务

四、Hadoop的特点
扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。

成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。

可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。

五、Hadoop集群的物理分布

六、单节点物理结构

七、Hadoop部署方式
本地模式
伪分布模式
集群模式

八、Hadoop体系结构（Hadoop1存在的问题以及Hadoop2相应的改进）

HDFS+MapReduce。共同点都是分布式的，主从关系结构。
HDFS是包括主节点NameNode，只有一个；还有从节点DataNode，有很多个。
NameNode含有我们用户存储的文件的元数据信息。把这些数据存放在硬盘上，但是在运行时是加载在内存中的。
缺点：
(1)当我们的NameNode无法在内存中加载全部元数据信息的时候，集群的寿命到头了。
(2)权限设计是不够彻底的（因为只有一个NameNode）。
(3)大量小文件的存储的话，会造成NameNode的内存压力骤增。（block默认64MB）
改进：
(1)2个NameNode一起共存，组成hdfs federation(联邦)。

(2)HA 自动、手工

MapReduce包括主节点JobTracker，只有一个；还有从节点TaskTracker，有很多个。
JobTracker主要的工作是管理用户提交的作业和分配资源。
缺点：
(1)对于实时性作业和批处理作业，需要搭建不同的集群环境，每个集群的资源利用率是不高的。
(2)MapReduce职责过多，需要分解。

新增：
Yarn是一个平台，用于处理资源分配和运行任务的。

把Yarn看做淘宝平台，淘宝上面有很多的卖不同产品的商家。这些商家就是Storm、Spark、MapReduce。

原文链接：https://blog.csdn.net/scgaliguodong123_/article/details/44535999

本站声明:网站内容来源于网络,如有侵权,请联系我们,我们将及时处理。

本博客所有文章如无特别注明均为原创。
复制或转载请以超链接形式注明转自起风了，原文地址《Hadoop简介》