Spark应用的结构的学习

2020-04-28 23:07
来源:分享电脑学习

承接上一篇文档《Standalone集群搭建和Spark应用监控》

需要了解的概念

一、Spark应用的结构（Driver + Executors）

（一）、Driver：相当于MapReduce中ApplicationMaster，运行SparkContext上下文、SparkContext进行初始化的地方（JVM）、进行RDD的初始化、Task运行的资源申请、调度的地方，一般认为就是main运行的地方

（二）、Executors：具体的Task运行的地方，一个executor可以运行多个Task任务，一个spark应用可以有多个Executor

Spark应用的结构的学习插图

练习：

Spark应用的结构的学习插图1

Spark应用的结构的学习插图2

Spark应用的结构的学习插图3

Spark应用的结构的学习插图4

结论：Application，一个应用包含多个job

练习：点击ip:4040/jobs中的多个job，查看里面的信息

Spark应用的结构的学习插图5

结论：一个Job里面包含多个Stage

练习：点击ip:4040/jobs中的多个Stage，查看里面的信息

Spark应用的结构的学习插图6

Spark应用的结构的学习插图7

结论：一个Stage里面可以包含多个Task。可以在词频统计前十中调用partition，查看分区个数，分区多数多的话就可以有多个Task了

其中上面的结论补充（详细解释在后面慢慢讲解）：

1、RDD的action类型的API一旦触发就会产生一个job，比如collect、take(10)、

2、有shuffle操作就会划分stage

3、Task就是最小的运行单位，是在executor处理对应分区数据的线程返回搜狐，查看更多

责任编辑：

声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。
阅读 ()

本博客所有文章如无特别注明均为原创。
复制或转载请以超链接形式注明转自起风了，原文地址《Spark应用的结构的学习》