hadoop hdfs 數據讀寫

原創

2020-06-22 03:13

hdfs 文件上傳過程

向 namenode 請求上傳文件
響應可以上傳文件
向 namenode 請求, 上傳到哪幾臺 dataNode
Namenode 返回,指定文件上傳的 datanode 節點數據
通過獲取到的 namenode 節點信息, 客戶端向一個節點發送通信, 開通數據通信管道
確認建立通道
創建 FSDataOutputStream
客戶端開始向一個dataNode傳遞數據, 第一個 dataNode 將數據持久化到磁盤, 並通過內存, 向下一個 dataNode 傳遞副本, 直到傳遞最後一個指定 datanode
確認數據傳輸完成, 向前一個 namenode 或客戶端返回確認
客戶端將數據存儲到那麼datanode 節點的元數據信息傳遞給 namenode 存儲

網絡拓撲

namenode 向客戶端返回元數據下載位置, 是需要計算網絡節點距離的, 根據請求客戶端的位置計算最短距離:

計算同節點距離例如: 集羣a-機架 1-node1, distance = 0
計算同機架距離例如: 集羣a-機架 1-node1—> 集羣a-機架 1-node2, 機架相同, 各節點向上查找 1 distance=2
計算同集羣距離例如: 集羣a-機架 1-node1—>集羣a-機架 2-node2, 集羣相同, 各節點向上查找 1 到機架, 再向上查找 1 到集羣 distance = 4
計算不同集羣距離例如: 集羣a-機架 1-node1—>集羣b-機架 2-node2, 各節點向上查找 1 到機架, 再向上查找 1到集羣, 再向上查找 1 distance=6

機架感知(副本存儲節點選擇)

選擇存儲副本的節點, 例如有三個副本

副本一:根據 client 所處的客戶端, 找到相同節點, 存儲一份副本
副本二:根據副本一所處節點, 找到相同機架任意節點, 存儲一份副本
副本三:根據副本一所處節點, 找到不同機架任意節點, 存儲一份副本

hdfs 文件讀數據過程

客戶端向 namenode 請求下載數據
namenode 返回目標文件的元數據
客戶端創建 FSDataInputStream 向獲取到的 dataNode 節點發起blk1數據請求
dataNode 返回 blk1 數據
如果整個文件數據大於指定限制, 會有多個 block 塊, 向存儲了 blk2 的 namenode 發起數據請求
namenode 返回數據
客戶端將獲取到的整個數據存儲到指定位置

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CDH配置Kerberos和Sentry詳解

1.安全之Kerberos安全認證 1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網絡授權協議，用來在非安全網絡中，對個人通信以安全的手段進行身份認證。這個詞又指麻省理工學院爲這個協議開發的一套計算

2024-05-20 21:36:31

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

14 hive安裝

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

O2OA(翱途)開發平臺爲待辦創建配置郵件通知

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]的消息機制允許開發者通過配置實現郵件通知。本篇主要闡述如何實現待辦消息的郵件通知。一、先決條件： 1、O2Server服務器正常運行，系統安裝部署請參考

2024-05-09 23:10:17

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

解密數倉的SQL ON ANYWHERE技術

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

Apache DolphinScheduler-3.2.0集羣部署教程

集羣部署方案(2 Master + 3 Worker) Apache DolphinScheduler官網：https://dolphinscheduler.apache.org/zh-cn Apache DolphinScheduler

2024-03-11 21:25:56

Apache Linkis 1.3.0 適配華爲MRS+Scriptis 實戰分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

2024-02-23 21:45:28

24小時熱門文章

最新文章

最新評論文章