好程序員大數據學習路線分享HDFS讀流程

原創

wx5d42865f47214

2019-08-29 13:42

　　1.客戶端或者用戶通過調用FileSystem對象的Open()方法打開需要讀取的文件，這時就是HDSF分佈式系統所獲取的一個對象
　　2.FileSystem通過遠程協議調用NameNode確定文件的前幾個Block的位置，對於每一個block,NameNode返回一個含有Block的元數據信息，接下來DataNode按照上面定義的距離(offSet偏移量)進行排序,如果Client本身即是一個DataNode,那麼就會優先從本地DataNode節點讀取數據. HDFS完成上面的工作之後返回一個FSDatalnputStream給客戶端,讓其從FSDatalnputStream中讀取。FSDatalnputStream包裝了一個類DFSInputStream,用來管理DataNode和NameNode的I/O操作。
　　3.NameNode向客戶端返回一個包含了數據信息的地址,客戶端根據地址創建一個FSDDatalnputStream的對象開始進行數據的讀取
　　4.FSDatalnputStream根據開始存的前幾個Block的DataNode地址，連接到最近DataNode上對數據開始從頭讀取，客戶端會反覆調用read()方法，以流的形式讀取DataNode這中的數據
　　5.當讀取到Block的結尾的時候，FSDatalnputStream會關閉當前DataNode的連接然後查找能否讀取下一個Block的DataNode位置信息,此時給客戶端產生的感覺就是數據是連續讀取的，也就說在讀取的時候開始查找下一個塊所在的地址。讀取完成時需要使用close()方法關閉FSDatalnputStream
　　HDFS寫流程：
　　1.Client通過調用FileSystem類的Create()方法請求創建文件
　　2.FileSystem通過對NameNode發出遠程請求,在NameNode裏面創建一個新的文件,但是此時並不關聯任何塊,NameNode進行很多檢查來保證不存在要創建文件已經在系統中,同時檢查是否有相當權限來創建文件，如果這些都檢查完了,那麼NamdNode會記錄下這個新文件的信息。FileSystem返回一個FSDatalnputStream給客戶端用來寫入數據，FSDatalnputStream將包裝一個DFsOutputStream用於對DataNode和NameNode的通信,一旦文件創建失敗,會給客戶端返回一個l0Exception表示文件創建失敗並停止任務
　　3.客戶端開始寫數據FSDatalnputStream把要寫的數據分成包的形式將其寫入到中間隊列中，其中的數據有DataStramer來讀取,DataStreamer的職責就是讓NameNode分配一個新的塊通過查找對應DataNode來存數據,來存儲的數據會被備份出一個副本,存儲到其他節點完成數據寫入即可
　　4.FSDatalnputStream維護了一個內部關於packets的隊列,裏面存放着等待被DataNode確認的信息,一旦數據信息寫入DataNode成功後,就會從隊列中移除
　　5.當數據完成寫入之後客戶會調用close方法,通過NameNode完成寫入之前通過一個方法flush將殘留數據一起寫進去。和NameNode確定寫入的位置信息，並返回成功狀態。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

向量數據庫引領 AI 創新——Zilliz 亮相 2024 亞馬遜雲科技中國峯會

2024年5月29日，亞馬遜雲科技中國峯會在上海召開，此次峯會聚集了來自全球各地的科技領袖、行業專家和創新企業，探討雲計算、大數據、人工智能等前沿技術的發展趨勢和應用場景。作爲領先的向量數據庫技術公司，Zilliz 在本次峯會上展示了最新的

2024-05-30 21:25:17

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

智能測試持續加碼，大模型引領軟件測試新生態

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

圖表控件LightningChart JS v5.2正式發佈 - 全新的開發體驗

LightningChart JS是Web上性能特高的圖表庫，具有出色的執行性能 - 使用高數據速率同時監控數十個數據源。 GPU加速和WebGL渲染確保您的設備的圖形處理器得到有效利用，從而實現高刷新率和流暢的動畫，常用於貿易，工程，航空

2024-05-23 12:20:12

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

安全分析：國內一些常見的汽車保險欺詐案件

2024年3月，北京警方打掉一個故意製造事故實施騙保的專業保險詐騙犯罪團伙。此案中，某保險公司在職員工與離職員工、定點汽修廠內外勾連，通過虛構、故意製造車輛事故或對事故擴損等手段騙取理賠款。不久前，遼寧警方也破獲一起自導自演僞造車禍騙保的案

2024-05-22 00:17:52

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

白鯨開源CEO郭煒在2024 DataOps發展大會上獲聘專家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

2024數據標註公司20強排行榜（附榜單）

近日，德本諮詢發佈“2024數據標註公司排行”。數據標註行業作爲人工智能領域的重要組成部分，其需求正在不斷增長。近年來，數據標註行業發展迅速，規模實現了顯著增長。以2023年爲例，該行業的規模已經達到了60.8億元，同比增長了約19.69

2024-05-16 02:09:44

企業大模型如何成爲自己數據的“百科全書”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

多點 Dmall x TiDB：出海多雲多活架構下的 TiDB 運維實戰

作者：多點，唐萬民導讀時隔 2 年，在 TiDB 社區成都地區組織者馮光普老師的協助下，TiDB 社區線下地區活動再次來到成都。來自多點 Dmall 的國內數據庫負責人唐萬民老師，在《出海多雲架構，多點 TiDB 運維實戰》的主題分享

2024-05-15 10:48:37

神策數據付力力入選福布斯中國 30 Under 30 十週年名人堂

福布斯中國30 UNDER 30 持續關注青年才俊。在 U30 十週年之際，福布斯中國通過跟蹤、梳理、比較歷年Under 30們入選後的表現、社會影響力事件，以及創業精神詮釋，編制了福布斯中國U30名人堂名單。神策數據聯合創始人 & 技術

2024-05-14 21:51:58

企業IT架構治理之道

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早

京東雲開發者

2024-05-13 23:59:32

24小時熱門文章

最新文章

最新評論文章