原创 垂直搜索引擎的關鍵技術
對於搜索引擎有幾個關鍵的技術詞語,如:網頁抓取,網頁解析,索引存儲,查詢接口,結果排序等等。但是對垂直搜索來說,又有些不同,何爲垂直搜索,我的理解是只需要針對某個領域內的幾個特定的網站,進行信息抓取。這樣一來減少了很多工作。
原创 hadoop中rpc的具體實現:
還是一年前看過 rpc 模塊,今天回頭去複習了一下,發現有一些小小的改動,增加了一些接口,比如 RPCEngine 。還增加了對 socket 一些參數的配置,比如時間設置等。但總體思路基本沒有變,關鍵就是下面幾個點。 1.
原创 總結最近一陣子忙的事情
回家過了個春節,春節期間去了趟廣東,跟昔日的同學碰了個頭,同時也跟TX公司的同學交流了一下,他們那邊在分佈式存儲與計算的內容,同時瞭解了他們的集羣規模及處理方式等等。 前段時間,除了完成公司的項目需求外,大致過了一
原创 hadoop io Sequence, Map, Set, Array, BloomMap Files(譯文)
原文: http://www.cloudera.com/blog/2011/01/hadoop-io-sequence-map-set-array-bloommap-files/ hadoop
原创 mapreduce中jobtracker進程的分析
對於 JobTracker 來說,主要做的事情有: 與客戶端的通信:接收客戶端的命令,如提交 job , kill job 。 接收 TaskTracker 心跳:爲 TT 分配 Task 任務隊列,更新 task 狀態,以
原创 datanode進程的分析(一)
數據存儲結點主類。 首先啓動一系列服務端口,如接收數據的端口,web server 訪問端口等。 然後調用startDataNode() 函數去做以下事情。 啓動 DN 的數據接收服務守護線程 DataXceiverServe
原创 Hbase中結果合併的分析
當 client 向 hregion 端 put() 數據時, HRegion 會判斷當前的 memstore 的大小是否大於參數 hbase.hregion.memstore.flush.size 值,如果
原创 最近在做的一些事情
此篇是流水帳形式,適全於快餐式閱讀,主要原因還是本人沒有把相關知識完全整理好,待知識齊全後再整理出來。 分佈式消息系統的關鍵問題: 消息的存儲方式: db , nosql , file 等方式的選擇。 消息的可靠性:避免
原创 FairScheduler(公平調度器)的源碼閱讀
FairScheduler 是 hadoop 中的作業公平調度器,主要是解決當 TT 發送心跳告訴 JT 當前的空閒 slots 時,希望 JT 分配給 TT 相應多個 ta
原创 hadoop中的streaming和pipes
Streaming 應用程序在提交 streaming job 的命令樣例,需要指定 JAR 包以及相應的參數值。 $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-
原创 hiveql的執行過程
週末花了點時間,結合以前看的,大體看了一下 Hive 源碼,主要包括 客戶 / 服務器通信 ,語法解析器,語義分析器,邏輯計劃生成器,計劃優化器,物理計劃生成器,物理計劃執行器等部分。分別由包 parse,pl
原创 集羣工具chukwa和ganglia
衆所周知, hadoop 是運行在分佈式的集羣環境下,同是是許多用戶或者組共享的集羣,因此任意時刻都會有很多用戶來訪問 NN 或者 JT ,對分佈式文件系統或者 mapreduce 進行操作,使用集羣下的機器來完成他們的存儲和計算工作
原创 數據複製的幾種方案
清明節,居然下雨,正好有時間看電影,在youku上把<<將愛>>看完了。 先留個位置,拋出幾個點來,以便以後補充。最近一陣子時間,看了 hbase,tair,redis 項目的代碼,加上之前的一些積累,在數據複
原创 流式計算框架
流式計算框架 S4 S4會將數據裏的每一條記錄包裝成event事件,每個事件是一個KV對,同時有eventType來標示這個事件的類型。 PE是S4中的基本運算單元。每個PE只負責處理自己所關心的eventtype,並且只處理自己所對應的
原创 hdfs中的NameNode,SecondaryNameNode,BackupNode
NameNode: 暫且叫它爲元數據結點。 它實現了NamenodeProtocols 中的接口,而該接口分別有三個父類: ClientProtocol, 與客戶端的通信。 DatanodeProtocol,