纵有疾风起
人生不言弃

Spark应用的结构的学习

Spark应用的结构的学习

2020-04-28 23:07
来源:分享电脑学习

原标题:Spark应用的结构的学习

承接上一篇文档《Standalone集群搭建和Spark应用监控》

需要了解的概念

一、Spark应用的结构(Driver + Executors)

(一)、Driver:相当于MapReduce中ApplicationMaster,运行SparkContext上下文、SparkContext进行初始化的地方(JVM)、进行RDD的初始化、Task运行的资源申请、调度的地方,一般认为就是main运行的地方

(二)、Executors:具体的Task运行的地方,一个executor可以运行多个Task任务,一个spark应用可以有多个Executor

Spark应用的结构的学习插图

练习:

  1. local模式下没有启动SparkShell的情况下查看jps

Spark应用的结构的学习插图1

  1. local模式下启动SparkShell的情况下查看jps

Spark应用的结构的学习插图2

  1. 启动集群模式查看jps
  1. 执行词频统计前十(参考前面的课件)的语句(执行collect),在浏览器查看ip:4040/jobs

Spark应用的结构的学习插图3

Spark应用的结构的学习插图4

  1. 再执行一次上面的第二步,可以多运行几次查看

结论:Application,一个应用包含多个job

练习:点击ip:4040/jobs中的多个job,查看里面的信息

Spark应用的结构的学习插图5

结论:一个Job里面包含多个Stage

练习:点击ip:4040/jobs中的多个Stage,查看里面的信息

Spark应用的结构的学习插图6

Spark应用的结构的学习插图7

结论:一个Stage里面可以包含多个Task。可以在词频统计前十中调用partition,查看分区个数,分区多数多的话 就可以有多个Task了

其中上面的结论补充(详细解释在后面慢慢讲解):

1、RDD的action类型的API一旦触发就会产生一个job,比如collect、take(10)、

2、有shuffle操作就会划分stage

3、Task就是最小的运行单位,是在executor处理对应分区数据的线程返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()

未经允许不得转载:起风网 » Spark应用的结构的学习
分享到: 生成海报

评论 抢沙发

评论前必须登录!

立即登录