原创 hadoop核心組件分佈式文件系統HDFS、資源調度管理系統YARN、分佈式計算框架MapReduce

分佈式存儲系統的第一印象HDFS是基於谷歌的GFS的克隆版本HDFS的特點:可擴展性(當節點不夠添加一臺機器就可以了),可容錯的(多副本的方式可存儲的),海量數據的存儲將上傳文件切分成指定大小的數據塊(128M)並以多副本的存儲在多個機器

原创 細讀HDFS的框架結構

傳統分佈式文件:什麼是HDFS?要點:1.1個master帶N個slaves    datenod管理數據的存儲namenod(nn)負責文件系統的讀寫操作datenod(dn)負責塊的一些操作

原创 分佈式計算框架mapreduce

從wordcount來學習:統計文件中的單詞書目1.讀取 2.拆分 3.讀取split中的數據 4.每一行交由map處理 5.結果由partition分區交由對應的reduce處理 6.通過outputformat進行輸出寫到文件系統上面

原创 初識hadoop

1.什麼是hadoophadoop是一個可靠(reliable)的、可擴展(scalable)的分佈式(distributed)的開源計算框架!Apache hadoop 允許分佈式處理的一個軟件,並且跨越在集羣的機器上(意思是數據分開存

原创 hadoop常用版本和選型

hadoop常用版本和選型apache hadoop 原生的,工作生產不建議CDH:優點:網頁安裝配置簡單和spark合作完美(佔30%)          缺點:安裝框架不開源            www.cloudera.com/c

原创 如何搭建一個GitHubpage

https://www.zhihu.com/question/20376047?sort=createdhttp://www.pchou.info/ssgithubPage/2013-01-03-build-github-blog-pag

原创 資源調度框架YARN簡述

YARN的產生背景(通俗講就是需要在不同時間使用不同的工具來處理數據,需要一個工具來調度,這個工具就是yarn):YARN的架構:重要的組件介紹:1)resource manager(RM):整個集羣同一時間提供服務的RM只有一個(公司中

原创 hadoop僞分佈式安裝步驟

http://blog.csdn.net/weixin_39216383/article/details/78953236配置http://blog.csdn.net/ye1142262478/article/details/506286

原创 數據可視化的流程

點贊 收藏 分享 文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問量 1萬+ 私信 關注

原创 分佈式計算框架MapReduce

1.JobTracker:JT作業的管理者將作業分解成一堆的任務:Task(MapTask和ReduceTask)將任務分配給TaskTracker運行作業的監控、容錯處理心跳檢測:在一定的時間間隔內,JT沒有收到TT的心跳信息,TT可能

原创 機器學習認知之路-----安裝到Anaconda Python環境

第1步:下載Anaconda2 v4.0.0第2步:安裝Anaconda# Run Anaconda2 v4.0.0 installer. bash /path to download file/Anaconda2-4.0.0-Linux

原创 初識spark、maven倉庫環境和scala環境

點贊 收藏 分享 文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問量 1萬+ 私信 關注

原创 YARN的環境搭建

配置yarn Yarn是hadoop的資源調度器,可以配置mapreduce job基於yarn運行。 1)配置etc/hadoop/mapred-site.xml(告訴mapreduce框架,最終執行時跑的位置是yarn上)<confi

原创 HDFS shell 常用命令的使用

基礎命令:hadoop fs +命令行遞歸展示文件:hadoop fs -lsr / 點贊 收藏 分享 文章舉報 fort110 發佈了34 篇原創文章 · 獲贊 6 · 訪問

原创 HDFS的讀寫過程簡述

主要的角色:客戶端:負責發起或提交讀寫請求(如果往HDFS上存儲數據或獲取數據,就要告訴客戶端)。namenode:HDFS的核心負責全局協調,做任何事都要向這裏彙報,和把控所有的請求。datanode:數量不定,負責數據的 存儲。把數據