原创 垂直搜索引擎的關鍵技術

       對於搜索引擎有幾個關鍵的技術詞語,如:網頁抓取,網頁解析,索引存儲,查詢接口,結果排序等等。但是對垂直搜索來說,又有些不同,何爲垂直搜索,我的理解是只需要針對某個領域內的幾個特定的網站,進行信息抓取。這樣一來減少了很多工作。

原创 hadoop中rpc的具體實現:

還是一年前看過 rpc 模塊,今天回頭去複習了一下,發現有一些小小的改動,增加了一些接口,比如 RPCEngine 。還增加了對 socket 一些參數的配置,比如時間設置等。但總體思路基本沒有變,關鍵就是下面幾個點。 1.   

原创 總結最近一陣子忙的事情

      回家過了個春節,春節期間去了趟廣東,跟昔日的同學碰了個頭,同時也跟TX公司的同學交流了一下,他們那邊在分佈式存儲與計算的內容,同時瞭解了他們的集羣規模及處理方式等等。       前段時間,除了完成公司的項目需求外,大致過了一

原创 hadoop io Sequence, Map, Set, Array, BloomMap Files(譯文)

原文: http://www.cloudera.com/blog/2011/01/hadoop-io-sequence-map-set-array-bloommap-files/          hadoop

原创 mapreduce中jobtracker進程的分析

  對於 JobTracker 來說,主要做的事情有: 與客戶端的通信:接收客戶端的命令,如提交 job , kill job 。 接收 TaskTracker 心跳:爲 TT 分配 Task 任務隊列,更新 task 狀態,以

原创 datanode進程的分析(一)

數據存儲結點主類。 首先啓動一系列服務端口,如接收數據的端口,web server 訪問端口等。 然後調用startDataNode() 函數去做以下事情。 啓動 DN 的數據接收服務守護線程 DataXceiverServe

原创 Hbase中結果合併的分析

當 client 向 hregion 端 put() 數據時, HRegion 會判斷當前的 memstore 的大小是否大於參數 hbase.hregion.memstore.flush.size 值,如果

原创 最近在做的一些事情

此篇是流水帳形式,適全於快餐式閱讀,主要原因還是本人沒有把相關知識完全整理好,待知識齊全後再整理出來。 分佈式消息系統的關鍵問題: 消息的存儲方式: db , nosql , file 等方式的選擇。 消息的可靠性:避免

原创 FairScheduler(公平調度器)的源碼閱讀

FairScheduler 是 hadoop 中的作業公平調度器,主要是解決當 TT 發送心跳告訴 JT 當前的空閒 slots 時,希望 JT 分配給 TT 相應多個 ta

原创 hadoop中的streaming和pipes

Streaming   應用程序在提交 streaming  job 的命令樣例,需要指定 JAR 包以及相應的參數值。 $HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-

原创 hiveql的執行過程

     週末花了點時間,結合以前看的,大體看了一下 Hive 源碼,主要包括 客戶 / 服務器通信 ,語法解析器,語義分析器,邏輯計劃生成器,計劃優化器,物理計劃生成器,物理計劃執行器等部分。分別由包 parse,pl

原创 集羣工具chukwa和ganglia

衆所周知, hadoop 是運行在分佈式的集羣環境下,同是是許多用戶或者組共享的集羣,因此任意時刻都會有很多用戶來訪問 NN 或者 JT ,對分佈式文件系統或者 mapreduce 進行操作,使用集羣下的機器來完成他們的存儲和計算工作

原创 數據複製的幾種方案

     清明節,居然下雨,正好有時間看電影,在youku上把<<將愛>>看完了。      先留個位置,拋出幾個點來,以便以後補充。最近一陣子時間,看了 hbase,tair,redis 項目的代碼,加上之前的一些積累,在數據複

原创 流式計算框架

流式計算框架 S4 S4會將數據裏的每一條記錄包裝成event事件,每個事件是一個KV對,同時有eventType來標示這個事件的類型。 PE是S4中的基本運算單元。每個PE只負責處理自己所關心的eventtype,並且只處理自己所對應的

原创 hdfs中的NameNode,SecondaryNameNode,BackupNode

NameNode: 暫且叫它爲元數據結點。 它實現了NamenodeProtocols 中的接口,而該接口分別有三個父類: ClientProtocol, 與客戶端的通信。 DatanodeProtocol,