第十課記錄 MapReduce編程模型與案例

原創

2020-04-27 11:30

1) 查詢 hadoop 進程是否啓動

#jps

2) 啓動 hadoop 程序

#start-all.sh

(1) 首先啓動 namenode
(2) 再啓動 datanode
(3) 再啓動 secodarynamenode (注意: secodarynamenode與namenode沒有半毛線的關係)

3) 再檢查一下hadoop當前模式是不是安全模式

#hdfs dfsadmin -safemode get

輸出結果如: Safe mode is OFF (因爲Hadoop在安全模式環境下，它是隻讀的)

4) 查看一個hdfs上的文本文件內容,如:

#hdfs dfs -cat /data/data.txt

  內容如下:
      I love Beijing
      I love China
      Beijing is the capital of China

5) 在此需要用到MapReduce的一個Examples的官方例子來計算data.txt

#cd /root/training/hadoop-2.4.1/share/hadoop/mapreduce
#hadoop jar hadoop-mapreduce-examples-2.4.1.jar

結果: 爲當前examples的jar包的所有功能支持

#hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount

結果: Usage: wordcount <in> <out>

#hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /data/data.txt /output/wcdata

  結果:
      在沒有分區的情況下,默認是1個分區：
          17/08/30 13:55:12 INFO mapreduce.Job: map 0% reduce 0%
          17/08/30 13:55:20 INFO mapreduce.Job: map 100% reduce 0%
          17/08/30 13:55:28 INFO mapreduce.Job: map 100% reduce 100%
      如果有多個分區: 如3個分區 ------> 輸出文件: 3個
          17/08/30 13:55:12 INFO mapreduce.Job: map 0% reduce 0%
                                            map 100% reduce 33%
                                       map 100% reduce 67%
          17/08/30 13:55:28 INFO mapreduce.Job: map 100% reduce 100%

  此時開始處理數據，可通過YARN平臺來監控運行情況
  http://localhost:8080/cluster

#hdfs dfs -ls /output/1

結果:
Found 2 items
-rw-r--r-- 1 root supergroup 0 2017-08-30 13:55 /output/1/_SUCCESS
-rw-r--r-- 1 root supergroup 55 2017-08-30 13:55 /output/1/part-r-00000

#hdfs dfs -cat /output/1/part-r-00000

結果：特點----->排序 (默認的排序規則: 1、字符串按照字典順序 2、數字升序), 可以自定義排序規則(比較器）
Beijing 2
China 2
I 2
capital 1
is 1
love 2
of 1

the 1

6) 重要: WordCount單詞計數數據的流動過程(數據如何被處理的?)

<a.jpg>

非常重要: 開發一個MR程序的之前，一定一定一定要畫圖，分析數據的流動過程（數據處理的過程)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

第十課記錄 MapReduce編程模型與案例

1) 查詢 hadoop 進程是否啓動

2) 啓動 hadoop 程序

3) 再檢查一下hadoop當前模式是不是安全模式

4) 查看一個hdfs上的文本文件內容,如:

5) 在此需要用到MapReduce的一個Examples的官方例子來計算data.txt

6) 重要: WordCount單詞計數數據的流動過程(數據如何被處理的?)

.NET有哪些好用的定時任務調度框架

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

elk3

Kafka存儲機制

aws語音呼叫調用，告警電話

深度學習框架火焰圖pprof和CUDA Nsys配置指南

爬蟲兩種繞過5s盾的方法

【轉】[C#] WebAPI 防止併發調用二（冥等性）

【轉】[SQL Server]關掉 SSMS 的 IntelliSense

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

Spring Cloud 的 Eureka 自我保護

三、Spring Cloud 的 Ribbon 負載均衡

Spring Cloud 的 Hystrix 在 Feign上使用 Hystrix功能

第九課記錄 HDFS的高級特性

第十課記錄 MapReduce編程模型與案例

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結