Hadoop streaming編寫mapper與reducer

原創

2018-08-27 21:28

mapper：


import sys,hashlib,struct,os
from urllib import unquote 

if __name__=="__main__":
    for line in sys.stdin:
        line = line.strip()
        tks = line.split("\t")  
        print tks[0]+'\t'+'1'

reducer：

import sys,re
curqq=''

for line in sys.stdin:
    line = line.strip()
    tks = line.split("\t")
    if curqq !=tks[0]:
        curqq=tks[0]
    else:
        print tks[0]

運行腳本：

if [[ $# -ne 3 ]]
then
    echo $#
    echo "run.sh day input whitelist md5_flag output"
    exit -1
fi

day=`date +%Y%m%d -d "${1}"`
input_dir=${2}
output=${3}

fs_kd -b task_rcm -u vitamin -test -d ${input_dir}
if [[ $? -ne 0 ]]
then
    echo "input dir not exists: ${input_dir}"
    exit -1
fi

fs_kd -b task_rcm -u vitamin -test -d ${output}
if [[ $? -eq 0 ]]
then
    echo "output dir exists: ${output}"
    exit -1
fi

hadoop jar hadoop-streaming-2.3.0-cdh5.1.0.jar -archives hadoop-streaming-2.3.0-cdh5.1.0.jar \
    -D mapred.reduce.tasks=1 \
    -D mapreduce.job.name=model_utils \
    -D mapreduce.job.queuename="task_rcm" \
    -D stream.num.map.output.key.fields=2 \
    -D num.key.fields.for.partition=1 \
    -D mapred.text.key.comparator.options="-k2,2nr" \
    -D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \
    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \
    -mapper mapper.py \
    -file mapper.py \
    -reducer reducer.py \
    -file reducer.py \
    -input ${input_dir} \
    -output ${output}
is_completed=`grep log.txt -e 'completed successfully' | wc -l`
if [[ $is_completed -lt 1 ]]
then
    echo "${cur_date}: failed"
    exit -1
fi

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

win10 手把手教你安裝 detectron2

全新的detectron2：基於pytorch重寫加入了新的功能如：panoptic segmentation, densepose, Cascade R-CNN, rotated bounding boxes 爲輪子而生、爲開源而

2020-06-25 16:12:43

【d3.js實踐教程02】基於中國地圖的高考一本錄取率排行

學習d3.js（以下都簡稱d3）也有一段時間了，運行d3做了幾個項目。我發現中文的d3教程很少，國外資料多但要求有一定的英文閱讀能力（推薦網址：http://bl.ocks.org/mbostock），於是就萌發了寫一個d3實際運用系列

2020-06-20 22:03:18

阿里雲服務器ECS配置Apache2+php5.3+mysql5圖文過程（window 2008 R2 32位）

楔子現在很多國內IT巨頭都開始搞雲服務器，前兩天，小弟在阿里雲（http://www.aliyun.com）中購買了一個雲服務器，OS是window 2008 R2 32位，並準備將自己的網站（ThinkPhp+Mysql）搬遷到新服務

2020-06-20 22:03:18

java實踐——ssh框架搭建

僅作爲個人筆記，供日後回顧用。首先要感謝博主eson_15，博主的文章幫助了我很多，附上該博主ssh框架搭建的博客鏈接：http://blog.csdn.net/eson_15/article/details/51277324

2020-06-20 05:52:59

第十屆大學生服務外包創新比賽心得和感悟

前言： 2019/4/29 在今天，大學生服務外包創新比賽（簡稱服創）比賽結果出來了， A08 賽題智能公會項目國家級三等獎（今年也就8只隊伍進了決賽8/184）無奈，還是沒能進入到決賽。出現的問題： 1、初次成立的團隊存在一定

2020-06-17 11:28:37

畢業設計之基於人臉識別的員工信息管理系統

前言：畢業設計選了這麼一個課題，採用SSM框架+LayUi框架+百度人臉識別接口實現人臉識別功能。由於正在準備考研的複試，所以畢業設計的課題選擇得比較簡單。作品簡介：我的畢業設計作品所採用的技術是SSM框架+LayUi前端框架結合百

2020-06-17 10:43:56

MFC計算器項目——日期計算模塊

計算器日期計算模塊（運行效果圖參見計算器項目綜述）主要實現兩個功能（與windows計算器中的日期計算功能一致） 1.給定兩個時間，計算日期差 2.給出基礎時間和時間差，計算目標時間該模塊開發文檔截圖核心代碼如下： // MyD

张少锋的博客

2020-06-17 09:10:33

關於多線程(進程）任務的思考

本質上多線程和多進程的目的是提高CPU的利用率，壓縮CPU的空閒時間，當系統去做IO的時候CPU就會空閒，這時候如果有其他進程搶佔CPU則能將CPU利用起來，CPU調度的最小單位是線程。因此線程數或者進程數多，可以儘可能地利

狂日一条街

2020-06-16 10:32:21

H5案例開發

Vue的安裝 Vue.js 不支持 IE8 及其以下版本，因爲 Vue.js 使用了 IE8 不能模擬的 ECMAScript 5 特性。 Vue.js 支持所有兼容 ECMAScript 5 的瀏覽器，一般都會推薦使用NPM進行

2020-06-15 02:04:34

從零開始搭建一個電商網站——需求分析

目錄概述功能詳情商品管理功能顧客管理功能訂單管理功能訂單狀態流轉概述本系列文章是爲了記錄搭建一個電商網站所學到的知識點。採用的技術棧爲： Node.js (Koa) MySQL 本項目是爲了練手，所以並不會包含電商平臺的所

2020-06-14 22:57:10

SSM框架整合(curd+分頁+導出爲excel)

####前言： SpringMVC,Mybatis,Spring三大框架的整合，該系統基於Maven做依賴管理。使用MySQL數據庫實現了MIS系統中常用的功能。項目源代碼GitHub地址：https://github.com/

2020-06-14 21:58:40

督導系統要演示啦

因爲督導系統要在領導面前演示了，所以最近忙着修改督導系統的bug，爲此我逃過課，熬過夜，博客也都轉載別人的文章。還好這個系統開始成形，也能展示一下，雖然還存在些問題，但在日後還會不斷地進行完善。今早上課見到有

2020-06-13 02:15:03

程序人生-大學的本科生涯

前言：回看自己的博客，發現一路走來，真是跌跌碰碰，曾經看過一本書寫到“一個學的東西越多，越容易忘記自己當初懵懂的時候是什麼樣子"，所以希望自己在讀研的期間，也能記錄一下自己的心得，人總是忘記得比較多。經歷：我在大二的時候加入的學校的

2020-06-10 05:31:30

2018年天源迪亞杯博弈賽後的感受

前言：大二下的時候，第一次去安徽合肥參加了“天源迪亞杯”全國計算機博弈大賽的六子棋博弈比賽。有點可惜，沒能爲學校爭取到國一，在最後一場比賽的時候程序超時，敗給了對手無緣進入決賽，最終以國二的成績結束了比賽。出現的問題： 1、六子的白子

2020-06-10 05:31:30

實現一個高併發內存池-----對比Malloc

實現一個高併發的內存池 1. 什麼是內存池 1.1 池化技術池是在計算技術中經常使用的一種設計模式，其內涵在於：將程序中需要經常使用的核心資源先申請出來，放到一個池內，有程序自管理，這樣可以提高資源的利用率，也可以保證本程序佔

2020-06-09 23:25:11

24小時熱門文章

最新文章

最新評論文章