Hadoop作業提交之客戶端作業提交

一、概要描述
僅僅描述向Hadoop提交作業的第一步，即調用Jobclient的submitJob方法，向Hadoop提交作業。

二、流程描述
Jobclient使用內置的JobSubmissionProtocol 實例jobSubmitClient 和JobTracker交互，最主要是提交作業、獲取作業執行信息等。

在JobClient中作業提交的主要過程如下：

1）通過調用JobTracker的getNewJobId()向jobtracker請求一個新的作業ID
2）獲取job的jar、輸入分片、作業描述等幾個路徑信息，以jobId命名。
3）其中getSystemDir()是返回jobtracker的系統目錄，來放置job相關的文件。包括：mapreduce的jar文件submitJarFile、分片文件submitSplitFile、作業描述文件submitJobFile
4）檢查作業的輸出說明，如果沒有指定輸出目錄或輸出目錄以及存在，則作業不提交。參照org.apache.hadoop.mapreduce.lib.output.FileOutputFormat的checkOutputSpecs方法。如果沒有指定，則拋出InvalidJobConfException，文件已經存在則拋出FileAlreadyExistsException
5）計算作業的輸入分片。通過InputFormat的getSplits(job)方法獲得作業的split並將split序列化封裝爲RawSplit。返回split數目，也即代表有多個分片有多少個map。詳細參見InputFormat獲取Split的方法。
6）writeNewSplits 方法把輸入分片寫到JobTracker的job目錄下。
7）將運行作業所需的資源（包括作業jar文件，配置文件和計算所得的輸入分片）複製到jobtracker的文件系統中一個以作業ID命名的目錄下。
8）使用句柄JobSubmissionProtocol通過RPC遠程調用的submitJob()方法，向JobTracker提交作業。JobTracker作業放入到內存隊列中，由作業調度器進行調度。並初始化作業實例。JobTracker創建job成功後會給JobClient傳回一個JobStatus對象用於記錄job的狀態信息，如執行時間、Map和Reduce任務完成的比例等。JobClient會根據這個JobStatus對象創建一個 NetworkedJob的RunningJob對象，用於定時從JobTracker獲得執行過程的統計數據來監控並打印到用戶的控制檯。

mapreduce 作業提交和執行

引用下Hadoop: The Definitive Guide, Second Edition中的一張經典圖。這裏僅僅描述上圖中的左上角第一個框部分內容，即本步驟的最終輸出僅僅是將作業提交到JobTracker。其他後續文章會繼續描述。

三、代碼詳細

Jobclient：JobClient是向JobTracker提交作業的接口，可以理解爲Hadoop的Mapreduce作業框架向用戶開放的作業提交入口。可以提交作業，監視作業狀態等

JobSubmissionProtocol（爲什麼0.20.1的javadoc中找不到這個接口，雖然0.20.1 0.20.2代碼中都是相同的用法，知道2.2.0貌似重命名爲被ClientProtocol替換）：JobClient和JobTracker進行通信的一個協議。JobClient實際上是用這個句柄來提交鎖業並且監視作業的執行狀況。

這個接口有兩個實現：LocalJobRunner(conf)當mapred-site.xml中的mapred.job.tracker值爲local是爲此對象。表示在單機上執行；如果爲一個地址的話則是JobTracker的對象，表示分佈式執行。

詳細可參照JobClient中的初始化代碼：


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
  /**
   *如果是非local的就會 連接到指定的JobTracker  
   */
  public void init(JobConf conf) throws IOException {
    String tracker = conf.get("mapred.job.tracker", "local");
    if ("local".equals(tracker)) {
      this.jobSubmitClient = new LocalJobRunner(conf);
    } else {
      this.jobSubmitClient = createRPCProxy(JobTracker.getAddress(conf), conf);
    }        
  }
 
 /*
  * RPC不是本次主題重點，可參照後續發表的專題內容
  */
  private JobSubmissionProtocol createRPCProxy(InetSocketAddress addr,
      Configuration conf) throws IOException {
    return (JobSubmissionProtocol) RPC.getProxy(JobSubmissionProtocol.class,
        JobSubmissionProtocol.versionID, addr, getUGI(conf), conf,
        NetUtils.getSocketFactory(conf, JobSubmissionProtocol.class));
  }

InputFormat重要，但暫不展開（此處會有鏈接）

Split重要，但暫不展開（此處會有鏈接）
RowSplit要，但暫不展開（此處會有鏈接）
通過代碼來了解流程，瞭解如何調用JobClient向Hadoop集羣提交作業。


1

2

3

4

5

6

7

8

9

10

  publicRunningJobsubmitJob(JobConfjob)throwsFileNotFoundException,

                                                  IOException{

    try{

      returnsubmitJobInternal(job);

    }catch(InterruptedExceptionie){

      thrownewIOException("interrupted",ie);

    }catch(ClassNotFoundExceptioncnfe){

      thrownewIOException("class
not found",cnfe);

    }

  }

實際方法的執行是submitJobInternal方法。着重看下這個方法的內部執行。主要的邏輯部分比較詳細的進行了註釋。（有些想繼續展開，感覺太細了，後面的文章中部分重要的會有涉及，不想深度遍歷了，到時會回過頭來互相鏈接）


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
 1 public RunningJob submitJobInternal(JobConf job)
 2             throws FileNotFoundException, ClassNotFoundException,
 3             InterruptedException, IOException {
 4 
 5         // 1）通過調用JobTracker的getNewJobId()向jobtracker請求一個新的作業ID
 6         JobID jobId = jobSubmitClient.getNewJobId();
 7         // 2）獲取job的jar、輸入分片、作業描述等幾個路徑信息，以jobId命名。
 8         // 3）其中getSystemDir()是返回jobtracker的系統目錄，來放置job相關的文件。包括：mapreduce的jar文件submitJarFile、分片文件submitSplitFile、作業描述文件submitJobFile
 9 
10         Path submitJobDir = new Path(getSystemDir(), jobId.toString());
11         Path submitJarFile = new Path(submitJobDir, "job.jar");
12         Path submitSplitFile = new Path(submitJobDir, "job.split");
13         configureCommandLineOptions(job, submitJobDir, submitJarFile);
14         Path submitJobFile = new Path(submitJobDir, "job.xml");
15         int reduces = job.getNumReduceTasks();
16         JobContext context = new JobContext(job, jobId);
17 
18         // Check the output specification
19         // 4）檢查作業的輸出說明，如果沒有指定輸出目錄或輸出目錄以及存在，則作業不提交。參照org.apache.hadoop.mapreduce.lib.output.FileOutputFormat的checkOutputSpecs方法。如果沒有指定，則拋出InvalidJobConfException，文件已經存在則拋出FileAlreadyExistsException
20 
21         if (reduces == 0 ? job.getUseNewMapper() : job.getUseNewReducer()) {
22             org.apache.hadoop.mapreduce.OutputFormat&lt; &gt; output = ReflectionUtils
23                     .newInstance(context.getOutputFormatClass(), job);
24             output.checkOutputSpecs(context);
25         } else {
26             job.getOutputFormat().checkOutputSpecs(fs, job);
27         }
28 
29         // 5）計算作業的輸入分片。詳細參見FormatInputFormat獲取Split的方法。
30         // 6）writeNewSplits 方法把輸入分片寫到JobTracker的job目錄下，名稱是submitSplitFile
31         // job.split名稱。
32         // 7）將運行作業所需的資源（包括作業jar文件，配置文件和計算所得的輸入分片）複製到jobtracker的文件系統中一個以作業ID命名的目錄下。
33 
34         // Create the splits for the job
35         LOG.debug("Creating splits at " + fs.makeQualified(submitSplitFile));
36         int maps;
37         if (job.getUseNewMapper()) {
38             maps = writeNewSplits(context, submitSplitFile);
39         } else {
40             maps = writeOldSplits(job, submitSplitFile);
41         }
42         job.set("mapred.job.split.file", submitSplitFile.toString());
43         job.setNumMapTasks(maps);
44 
45         // Write job file to JobTracker's fs
46         FSDataOutputStream out = FileSystem.create(fs, submitJobFile,
47                 new FsPermission(JOB_FILE_PERMISSION));
48 
49         try {
50             job.writeXml(out);
51         } finally {
52             out.close();
53         }
54 
55         // 8）使用句柄JobSubmissionProtocol通過RPC遠程調用的submitJob()方法，向JobTracker提交作業。JobTracker根據接收到的submitJob()方法調用後，把調用放入到內存隊列中，由作業調度器進行調度。並初始化作業實例。
56 
57         JobStatus status = jobSubmitClient.submitJob(jobId);
58         if (status != null) {
59             return new NetworkedJob(status);
60         } else {
61             throw new IOException("Could not launch job");
62         }
63     }


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

/**

* JobTracker.submitJob() kicks off a new job.  

*

* Create a 'JobInProgress' object, which contains both JobProfile

* and JobStatus.  Those two sub-objects are sometimes shipped outside

* of the JobTracker.  But JobInProgress adds info that's useful for

* the JobTracker alone.

*/

  publicsynchronizedJobStatussubmitJob(JobIDjobId)throwsIOException{

    if(jobs.containsKey(jobId)){

      //job
already running, don't start twice

      returnjobs.get(jobId).getStatus();

    }

    JobInProgressjob=newJobInProgress(jobId,this,this.conf);

    Stringqueue=job.getProfile().getQueueName();

    if(!(queueManager.getQueues().contains(queue))){      

      newCleanupQueue().addToQueue(conf,getSystemDirectoryForJob(jobId));

      thrownewIOException("Queue
\""+queue+"\"
does not exist");        

    }

    //
check for access

    try{

      checkAccess(job,QueueManager.QueueOperation.SUBMIT_JOB);

    }catch(IOExceptionioe){

      LOG.warn("Access
denied for user "+job.getJobConf().getUser()

                +".
Ignoring job "+jobId,ioe);

      newCleanupQueue().addToQueue(conf,getSystemDirectoryForJob(jobId));

      throwioe;

    }

  returnaddJob(jobId,job);

  }

完。

Hadoop作業提交之客戶端作業提交

Hadoop作業提交之客戶端作業提交

跟我學框架之struts框架搭建（一）

gitlab 中文版在docker中進行安裝的流程

docker 安裝流程

redis4.0的安裝步驟

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結