好程序員大數據學習路線分享HDFS讀流程

  1.客戶端或者用戶通過調用FileSystem對象的Open()方法打開需要讀取的文件,這時就是HDSF分佈式系統所獲取的一個對象
  2.FileSystem通過遠程協議調用NameNode確定文件的前幾個Block的位置,對於每一個block,NameNode返回一個含有Block的元數據信息,接下來DataNode按照上面定義的距離(offSet偏移量)進行排序,如果Client本身即是一個DataNode,那麼就會優先從本地DataNode節點讀取數據. HDFS完成上面的工作之後返回一個FSDatalnputStream給客戶端,讓其從FSDatalnputStream中讀取。FSDatalnputStream包裝了一個類DFSInputStream,用來管理DataNode和NameNode的I/O操作。
  3.NameNode向客戶端返回一個包含了數據信息的地址,客戶端根據地址創建一個FSDDatalnputStream的對象開始進行數據的讀取
  4.FSDatalnputStream根據開始存的前幾個Block的DataNode地址,連接到最近DataNode上對數據開始從頭讀取,客戶端會反覆調用read()方法,以流的形式讀取DataNode這中的數據
  5.當讀取到Block的結尾的時候,FSDatalnputStream會關閉當前DataNode的連接然後查找能否讀取下一個Block的DataNode位置信息,此時給客戶端產生的感覺就是數據是連續讀取的,也就說在讀取的時候開始查找下一個塊所在的地址。讀取完成時需要使用close()方法關閉FSDatalnputStream
  HDFS寫流程:
  1.Client通過調用FileSystem類的Create()方法請求創建文件
  2.FileSystem通過對NameNode發出遠程請求,在NameNode裏面創建一個新的文件,但是此時並不關聯任何塊,NameNode進行很多檢查來保證不存在要創建文件已經在系統中,同時檢查是否有相當權限來創建文件,如果這些都檢查完了,那麼NamdNode會記錄下這個新文件的信息。FileSystem返回一個FSDatalnputStream給客戶端用來寫入數據,FSDatalnputStream將包裝一個DFsOutputStream用於對DataNode和NameNode的通信,一旦文件創建失敗,會給客戶端返回一個l0Exception表示文件創建失敗並停止任務
  3.客戶端開始寫數據FSDatalnputStream把要寫的數據分成包的形式將其寫入到中間隊列中,其中的數據有DataStramer來讀取,DataStreamer的職責就是讓NameNode分配一個新的塊通過查找對應DataNode來存數據,來存儲的數據會被備份出一個副本,存儲到其他節點完成數據寫入即可
  4.FSDatalnputStream維護了一個內部關於packets的隊列,裏面存放着等待被DataNode確認的信息,一旦數據信息寫入DataNode成功後,就會從隊列中移除
  5.當數據完成寫入之後客戶會調用close方法,通過NameNode完成寫入之前通過一個方法flush將殘留數據一起寫進去。和NameNode確定寫入的位置信息,並返回成功狀態。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章