台部落fort110

分佈式存儲系統的第一印象HDFS是基於谷歌的GFS的克隆版本HDFS的特點：可擴展性（當節點不夠添加一臺機器就可以了），可容錯的（多副本的方式可存儲的），海量數據的存儲將上傳文件切分成指定大小的數據塊（128M）並以多副本的存儲在多個機器

2020-07-06 07:15:21

傳統分佈式文件：什麼是HDFS？要點：1.1個master帶N個slaves datenod管理數據的存儲namenod（nn）負責文件系統的讀寫操作datenod（dn）負責塊的一些操作

2020-07-06 07:15:21

從wordcount來學習：統計文件中的單詞書目1.讀取 2.拆分 3.讀取split中的數據 4.每一行交由map處理 5.結果由partition分區交由對應的reduce處理 6.通過outputformat進行輸出寫到文件系統上面

2020-07-06 07:15:10

1.什麼是hadoophadoop是一個可靠（reliable）的、可擴展（scalable）的分佈式（distributed）的開源計算框架！Apache hadoop 允許分佈式處理的一個軟件，並且跨越在集羣的機器上（意思是數據分開存

2020-02-20 12:58:55

hadoop常用版本和選型apache hadoop 原生的，工作生產不建議CDH：優點：網頁安裝配置簡單和spark合作完美（佔30%）缺點：安裝框架不開源 www.cloudera.com/c

2020-02-20 12:58:55

https://www.zhihu.com/question/20376047?sort=createdhttp://www.pchou.info/ssgithubPage/2013-01-03-build-github-blog-pag

2020-02-20 12:58:55

YARN的產生背景（通俗講就是需要在不同時間使用不同的工具來處理數據，需要一個工具來調度，這個工具就是yarn）：YARN的架構：重要的組件介紹：1）resource manager（RM）：整個集羣同一時間提供服務的RM只有一個（公司中

2020-02-20 12:58:55

http://blog.csdn.net/weixin_39216383/article/details/78953236配置http://blog.csdn.net/ye1142262478/article/details/506286

2020-02-20 12:58:54

點贊收藏分享文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問量 1萬+ 私信關注

2020-02-20 12:58:54

1.JobTracker：JT作業的管理者將作業分解成一堆的任務：Task（MapTask和ReduceTask）將任務分配給TaskTracker運行作業的監控、容錯處理心跳檢測：在一定的時間間隔內，JT沒有收到TT的心跳信息，TT可能

2020-02-20 12:58:54

第1步：下載Anaconda2 v4.0.0第2步：安裝Anaconda# Run Anaconda2 v4.0.0 installer. bash /path to download file/Anaconda2-4.0.0-Linux

2020-02-20 12:58:54

點贊收藏分享文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問量 1萬+ 私信關注

2020-02-20 12:58:54

配置yarn Yarn是hadoop的資源調度器，可以配置mapreduce job基於yarn運行。 1)配置etc/hadoop/mapred-site.xml（告訴mapreduce框架，最終執行時跑的位置是yarn上）<confi

2020-02-20 12:58:54

基礎命令：hadoop fs +命令行遞歸展示文件：hadoop fs -lsr / 點贊收藏分享文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問

2020-02-20 12:58:54

主要的角色：客戶端：負責發起或提交讀寫請求（如果往HDFS上存儲數據或獲取數據，就要告訴客戶端）。namenode：HDFS的核心負責全局協調，做任何事都要向這裏彙報，和把控所有的請求。datanode：數量不定，負責數據的存儲。把數據

2020-02-20 12:58:53