网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

spark基础-rdd特性

RDD特性:

目前创新互联公司已为1000+的企业提供了网站建设、域名、网络空间、网站运营、企业网站设计、忻州网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。

1.RDD是spark提供的核心抽象,全称:Resillient Distributed Dataset,即弹性分布式数据集。

2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,氛围多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以并行操作(分布式数据集)

3.RDD通常通过Hadoop上的文件来创建。有时也可以通过应用程序中的集合赖床见。

4.RDD最重要的特性就是提供了容错性,可以从节点失败中恢复过来。即:如果某个节点的RDD partition因为节点故障导致数据丢失,那么RDD会自动通过自己的数据来源重新计算该partitin。

5.RDD的每个partition在spark节点上,默认都是放在内存中,但是如果内存中放不下这么多数据,多出来的数据,就会把partition中的部分数据写在磁盘上,进而保存。对于用户来说,并不知道RDD内存数据存储在哪里。RDD的这种自动进行内存和词牌之间的切换机制,就是RDD的弹性特点所在。

一个RDD在逻辑上抽象地代表了一个HDFS文件。但是实际上是呗分区的,氛围多个分区,多个分区散落在spark集群中,不同的节点上。

Spark核心编程是什么:

首先,定义初始的RDD,就是说,要定义订一个数据从哪里来。

第二:定义对RDD的计算操作,这个在spark里称为算子

第三:就是循环往复的过程第一次计算完成后,数据就会到了新的一批节点上,变成了新的RDD,然后再次反复,针对新的RDD定义算子操作。

第四:获得最终的数据,将数据保存起来。


分享标题:spark基础-rdd特性
网站链接:http://bjjierui.cn/article/pgoehi.html

其他资讯