原创 【HDFS】文件入Trash-rename操作

接http://blog.csdn.net/tracymkgld/article/details/17552189 上篇沒提到Trash具體怎麼工作,接着看一下: if(!skipTrash) { try {

原创 如何簡單地測算系統吞吐量

在流計算、數據傳輸之類的系統中,有時候需要統計、壓測下一下系統的吞吐能力,這裏寫了一段簡單實現記錄一下,方便以後使用,構造參數有兩個,一個是name,用於區分,一個是採樣週期。 發送或者接收代碼中調用update方法即可 public

原创 【HDFS】hdfs文件系統的刪除操作

常用的rm和rmr 命令有什麼區別,怎麼實現的?然後Trash是啥,通過1.0.3的代碼研究一下。 elif [ "$COMMAND" = "fs" ] ; then CLASS=org.apache.hadoop.fs.FsShel

原创 批量數據的聚合以及groupby實現

大家一定對sql非常熟悉,關係型數據庫自不必說,現在越來越多的大數據系統也都支持sql,比如hive,odps ,presto,phoenix(hbase),galaxy 以及cep(esper)等都支持sql,或者類sql語言。sql

原创 【HDFS】存儲balancer到底咋回事

最近集羣存儲傾斜,個別節點存儲超過85%,啓動balancer之後效果明顯,但是有時候balancer啓動也不能解決問題。從運維階段就知道有這麼一個balancer,今天終於憋了一口氣看看balancer到底咋回事。版本還是1.0.3 首

原创 【HDFS】hdfs的fsck是咋回事

有一次使用hadoop客戶端運行hadoop的fsck,客戶端報錯,顯示socket錯誤,連不上,rd童鞋恥笑說沒有配置http地址,教訓我等fsck是依靠http的一個工具,好吧,誰讓咱他媽的不懂呢,現在就來看看fsck到底是咋實現的。

原创 【HDFS】datanode註冊信息都有啥?

datanode節點在啓動的時候,有一個向namenode註冊的過程,那麼註冊的過程中datanode到底向namenode傳遞了哪些信息? private void register() throws IOException {

原创 【HDFS】namenode如何根據輸入的文件(路徑)名找到對應的inode的?

大家都用過 hadoop dfs -ls/rmr/rm/get/put/cat等命令,後面跟的都是一個字符串形式的文件絕對路徑/a/b/c/d這樣的玩意,那麼namenode如何根據你輸入的/a/b/c/d這樣字符串格式的東西找到對應的文

原创 【Mapred】jobtracker & tasktracker架構作業是怎麼提交的

Streaming那一套就先不管了,提交作業部分的代碼肯定是一樣的,只不過客戶端提交的方式不一樣。 很多人都從wordCount看起,看吧,我擦。 Configuration conf = new Configuration();

原创 Kafka 0.9.0 文檔翻譯-1、Getting Started

kafka目前應用比較廣泛,中小規模的公司都把kafka當做大數據平臺的數據總線,成爲很多流計算系統的輸入源,比如storm,flink,spark-streaming等。同時各種應用的日誌做離線處理的時候,架構上傾向於使用kafka作爲

原创 【HDFS】hadoop的機架感知策略是啥?

瞭解hadoop的或多或少都聽說過機架感知策略,無論是balancer還是jobtracker分配作業、數據副本放置策略都會用到機架感知。那什麼叫機架感知? 首先故名思意機架感知就是感知機架,誰感知?就是hadoop系統嘛,更確切地說是h

原创 Azkaban添加短信報警功能

Azkaban本身具有郵件報警功能,但是郵件報警一般用戶不能及時響應處理。雖然用戶可以在作業中自行設計、使用短信報警功能,但是僅能對工作流中的一個作業執行內部過程監控,而不能監視工作流整體運行進度。爲了使工作流的執行狀態更方便快捷地通知

原创 MapReduce關鍵流程代碼分析

 本文從以下幾個方面做介紹: 1,TaskTracker和Child的代碼實現流程,Child部分僅介紹流程,至於MapRduce的具體調用邏輯已經有很多文章介紹了,這裏並沒有做詳細介紹; 2,Child進程的生命週期代碼分析;

原创 Azkaban-任務調度管理器

Azkaban據說是哈利波特系列故事中的一座監獄的名字,臥槽,搜索這個詞多數也都是哈利波特相關的網頁,真是惱火!能搜到的azkaban的項目主頁在:http://azkaban.github.io/azkaban2/,這裏介紹得還是比較詳

原创 【HDFS】Trash的週期清理

看namenode的啓動代碼,在初始化的時候 startTrashEmptier(conf); 有這個麼東西,啓動TrashEmptier,e