网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

pythonmapreduce的方法是什么

本篇内容主要讲解“python map reduce的方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python map reduce的方法是什么”吧!

成都创新互联公司主要从事成都网站制作、成都网站设计、网页设计、企业做网站、公司建网站等业务。立足成都服务荔城,10多年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:028-86922220

执行shell脚本run.sh

#! /bin/bash
IN_DIR="/input/20140221"
OUT_DIR="/output/20140221"

HPHOME=$HADOOP_HOME/bin/
JAR_PACKAGE=$HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh4u0.jar

MAP_FILE=$(pwd)/map.py
RED_FILE=$(pwd)/red.py

${HPHOME}hadoop fs -rmr $OUT_DIR
${HPHOME}hadoop jar $JAR_PACKAGE \
        -numReduceTasks 1 \
        -jobconf mapred.job.queue.name=platform \
        -input $IN_DIR \
        -output $OUT_DIR  \
        -file $MAP_FILE  \
        -file $RED_FILE \
        -mapper $MAP_FILE \
        -reducer $RED_FILE \
        -inputformat SequenceFileAsTextInputFormat
exit $?

map.py

#!/usr/bin/env python

import sys

for line in sys.stdin:
        line = line.strip()
        if line.find("str1")!=-1:
                item = line.split('\01')
                key = item[3]
                print '%s\t%s' % (key, 'str3')
        elif line.find("str2")!=-1:
                item = line.split('\01')
                key = item[2]
                value = item[5]
                print '%s\t%s\t%s' % (key, 'str3', value)
        else:
                pass

red.py

#!/usr/bin/env python

from operator import itemgetter
import sys

word2count = {}
total_count = 0
total_money = 0.0
total_error = 0

pre_pid = ''
pre_money = 0.0
is_pre_push = 0
for line in sys.stdin:
        line = line.strip()
        if line.find('str3')!=-1:
                item = line.split('\t')
                total_money += float(item[2])
                total_count += 1
        else:
                pass

print total_count, total_error, total_money ##最后才打印

仅作为参考

hadoop默认以'\t'分隔key和value,第一个字段为key

到reduce时,相同key的都在一起被同一个red.py处理,故可以连续读取相同key的每一行。(java中相同key的都以数组的形式放在一次reduce中了,而python却仍要读取多行,但相同key的都排在一起)

到此,相信大家对“python map reduce的方法是什么”有了更深的了解,不妨来实际操作一番吧!这里是创新互联网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!


当前标题:pythonmapreduce的方法是什么
路径分享:http://bjjierui.cn/article/jjogeg.html

其他资讯