台部落lance

對於搜索引擎有幾個關鍵的技術詞語，如：網頁抓取，網頁解析，索引存儲，查詢接口，結果排序等等。但是對垂直搜索來說，又有些不同，何爲垂直搜索，我的理解是只需要針對某個領域內的幾個特定的網站，進行信息抓取。這樣一來減少了很多工作。

2020-02-26 00:04:18

還是一年前看過 rpc 模塊，今天回頭去複習了一下，發現有一些小小的改動，增加了一些接口，比如 RPCEngine 。還增加了對 socket 一些參數的配置，比如時間設置等。但總體思路基本沒有變，關鍵就是下面幾個點。 1.

2018-09-05 02:09:58

回家過了個春節，春節期間去了趟廣東，跟昔日的同學碰了個頭，同時也跟TX公司的同學交流了一下，他們那邊在分佈式存儲與計算的內容，同時瞭解了他們的集羣規模及處理方式等等。前段時間，除了完成公司的項目需求外，大致過了一

2018-09-05 02:09:58

原文： http://www.cloudera.com/blog/2011/01/hadoop-io-sequence-map-set-array-bloommap-files/ hadoop

2018-09-05 02:09:58

對於 JobTracker 來說，主要做的事情有：與客戶端的通信：接收客戶端的命令，如提交 job ， kill job 。接收 TaskTracker 心跳：爲 TT 分配 Task 任務隊列，更新 task 狀態，以

2018-09-05 02:09:58

數據存儲結點主類。首先啓動一系列服務端口，如接收數據的端口，web server 訪問端口等。然後調用startDataNode() 函數去做以下事情。啓動 DN 的數據接收服務守護線程 DataXceiverServe

2018-09-05 02:09:58

當 client 向 hregion 端 put() 數據時， HRegion 會判斷當前的 memstore 的大小是否大於參數 hbase.hregion.memstore.flush.size 值，如果

2018-09-05 02:09:58

此篇是流水帳形式，適全於快餐式閱讀，主要原因還是本人沒有把相關知識完全整理好，待知識齊全後再整理出來。分佈式消息系統的關鍵問題：消息的存儲方式： db ， nosql ， file 等方式的選擇。消息的可靠性：避免

2018-09-05 02:09:58

FairScheduler 是 hadoop 中的作業公平調度器，主要是解決當 TT 發送心跳告訴 JT 當前的空閒 slots 時，希望 JT 分配給 TT 相應多個 ta

2018-09-05 02:09:57

Streaming 應用程序在提交 streaming job 的命令樣例，需要指定 JAR 包以及相應的參數值。 $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-

2018-09-05 02:09:57

週末花了點時間，結合以前看的，大體看了一下 Hive 源碼，主要包括客戶 / 服務器通信，語法解析器，語義分析器，邏輯計劃生成器，計劃優化器，物理計劃生成器，物理計劃執行器等部分。分別由包 parse,pl

2018-09-05 02:09:57

衆所周知， hadoop 是運行在分佈式的集羣環境下，同是是許多用戶或者組共享的集羣，因此任意時刻都會有很多用戶來訪問 NN 或者 JT ，對分佈式文件系統或者 mapreduce 進行操作，使用集羣下的機器來完成他們的存儲和計算工作

2018-09-05 02:09:57

清明節，居然下雨，正好有時間看電影，在youku上把<<將愛>>看完了。先留個位置，拋出幾個點來，以便以後補充。最近一陣子時間，看了 hbase,tair,redis 項目的代碼，加上之前的一些積累，在數據複

2018-09-05 02:09:57

流式計算框架 S4 S4會將數據裏的每一條記錄包裝成event事件，每個事件是一個KV對，同時有eventType來標示這個事件的類型。 PE是S4中的基本運算單元。每個PE只負責處理自己所關心的eventtype,並且只處理自己所對應的

2018-09-05 02:09:57

NameNode: 暫且叫它爲元數據結點。它實現了NamenodeProtocols 中的接口，而該接口分別有三個父類： ClientProtocol, 與客戶端的通信。 DatanodeProtocol,

2018-09-05 02:09:56