原创 hadoop核心組件分佈式文件系統HDFS、資源調度管理系統YARN、分佈式計算框架MapReduce
分佈式存儲系統的第一印象HDFS是基於谷歌的GFS的克隆版本HDFS的特點:可擴展性(當節點不夠添加一臺機器就可以了),可容錯的(多副本的方式可存儲的),海量數據的存儲將上傳文件切分成指定大小的數據塊(128M)並以多副本的存儲在多個機器
原创 細讀HDFS的框架結構
傳統分佈式文件:什麼是HDFS?要點:1.1個master帶N個slaves datenod管理數據的存儲namenod(nn)負責文件系統的讀寫操作datenod(dn)負責塊的一些操作
原创 分佈式計算框架mapreduce
從wordcount來學習:統計文件中的單詞書目1.讀取 2.拆分 3.讀取split中的數據 4.每一行交由map處理 5.結果由partition分區交由對應的reduce處理 6.通過outputformat進行輸出寫到文件系統上面
原创 初識hadoop
1.什麼是hadoophadoop是一個可靠(reliable)的、可擴展(scalable)的分佈式(distributed)的開源計算框架!Apache hadoop 允許分佈式處理的一個軟件,並且跨越在集羣的機器上(意思是數據分開存
原创 hadoop常用版本和選型
hadoop常用版本和選型apache hadoop 原生的,工作生產不建議CDH:優點:網頁安裝配置簡單和spark合作完美(佔30%) 缺點:安裝框架不開源 www.cloudera.com/c
原创 如何搭建一個GitHubpage
https://www.zhihu.com/question/20376047?sort=createdhttp://www.pchou.info/ssgithubPage/2013-01-03-build-github-blog-pag
原创 資源調度框架YARN簡述
YARN的產生背景(通俗講就是需要在不同時間使用不同的工具來處理數據,需要一個工具來調度,這個工具就是yarn):YARN的架構:重要的組件介紹:1)resource manager(RM):整個集羣同一時間提供服務的RM只有一個(公司中
原创 hadoop僞分佈式安裝步驟
http://blog.csdn.net/weixin_39216383/article/details/78953236配置http://blog.csdn.net/ye1142262478/article/details/506286
原创 數據可視化的流程
點贊 收藏 分享 文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問量 1萬+ 私信 關注
原创 分佈式計算框架MapReduce
1.JobTracker:JT作業的管理者將作業分解成一堆的任務:Task(MapTask和ReduceTask)將任務分配給TaskTracker運行作業的監控、容錯處理心跳檢測:在一定的時間間隔內,JT沒有收到TT的心跳信息,TT可能
原创 機器學習認知之路-----安裝到Anaconda Python環境
第1步:下載Anaconda2 v4.0.0第2步:安裝Anaconda# Run Anaconda2 v4.0.0 installer. bash /path to download file/Anaconda2-4.0.0-Linux
原创 初識spark、maven倉庫環境和scala環境
點贊 收藏 分享 文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問量 1萬+ 私信 關注
原创 YARN的環境搭建
配置yarn Yarn是hadoop的資源調度器,可以配置mapreduce job基於yarn運行。 1)配置etc/hadoop/mapred-site.xml(告訴mapreduce框架,最終執行時跑的位置是yarn上)<confi
原创 HDFS shell 常用命令的使用
基礎命令:hadoop fs +命令行遞歸展示文件:hadoop fs -lsr / 點贊 收藏 分享 文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問
原创 HDFS的讀寫過程簡述
主要的角色:客戶端:負責發起或提交讀寫請求(如果往HDFS上存儲數據或獲取數據,就要告訴客戶端)。namenode:HDFS的核心負責全局協調,做任何事都要向這裏彙報,和把控所有的請求。datanode:數量不定,負責數據的 存儲。把數據