网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

浅谈Spark算子

RDD的操作类型分为两类:

为广平等地区用户提供了全套网页设计制作服务,及广平网站建设行业解决方案。主营业务为做网站、网站设计、广平网站设计,以传统方式定制建设网站,并提供域名空间备案等一条龙服务,秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求,就会得到认可,从而选择与我们长期合作。这样,我们也可以走得更远!

Ø Transformation,根据原有的RDD创建一个新的RDD

Ø actions,对RDD操作后把结果返回给driver

  Transfrmation操作是延迟的,也就是说从一个RDD转换到另一个RDD的转换不是马上执行的,需要等到有Action操作的时候才会真正触发运算。

  Action会触发Spark提交作业,并将数据输出spark系统。

从小方向来说,Spark 算子大致可以分为以下三类:

(1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。
(2)Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。

(3)Action算子,这类算子会触发SparkContext提交Job作业。

浅谈Spark算子      例如map是一个转换,他把RDD中的数据经过一系列的转换后转换成一个新的RDD,而reduce则是一个action,它收集RDD所有的数据经过一系列的处理,最后把结果传递给driver。

  RDD的所有转换操作都是lazy模式的,即Spark不会立马计算出结果,而是记住所有对数据集的转换操作,这些转换只有遇到action的时候才会开始计算。这样的设计使得spark更加高效。例如,对一个数据做一次map操作后进行reduce操作,只有reduce的结果返回给driver,而不是把数据量更大的map操作后传递给driver。

1.1 Transformation

  transformation返回一个新的RDD方式有很多,如从数据源生成一个新的RDD,从RDD生成一个新的RDD。所有的transformation都是采用的懒策略,就是只将transformation提交是不会执行的。

   详情参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html

浅谈Spark算子

1.2   Action

     Action是得到一个值,或者一个结果。计算只有在action被提交的时候才被触发。




欢迎关注个人微信公众号:大数据and机器学习(CLbigdata) 

浅谈Spark算子


网站栏目:浅谈Spark算子
网站网址:http://bjjierui.cn/article/gdsoco.html

其他资讯