网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

Spark累加器实验

以下代码用 Pyspark + IPython 完成

创新互联公司的客户来自各行各业,为了共同目标,我们在工作上密切配合,从创业型小企业到企事业单位,感谢他们对我们的要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。专业领域包括做网站、网站建设、电商网站开发、微信营销、系统平台开发。

统计日志空行的数量:

读取日志,创建RDD:

myrdd = sc.textFile("access.log")

  1. 不使用累加器:

In [68]: s = 0
In [69]: def f(x):
    ...:     global s
    ...:     if len(x) == 0:
    ...:         s += 1
    ...:
In [70]: myrdd.foreach(f)
In [71]: print (s)

得出结果为:

0

原因是python 的变量,即使是全局变量不能应用在各个计算进程(线程)中同步数据,所以需要分布式计算框架的变量来同步数据,Spark 中采用累加器来解决:

  1. 使用累加器

In [64]: s = sc.accumulator(0)
In [65]: def f(x):
    ...:     global s
    ...:     if len(x) == 0:
    ...:         s += 1
    ...:
In [66]: myrdd.foreach(f)
In [67]: print (s)

得出正确结果:

14


网页题目:Spark累加器实验
当前URL:http://bjjierui.cn/article/pdisdp.html

其他资讯