原创 海納百川——人人網海量存儲系統Nuclear開發手記

此文爲《程序員》雜誌約稿,發表在2010年9月刊。懷念過去美好的時光和所有的UGC兄弟真摯友誼,謹以此文爲個人職業發展階段作一個美好的終結。以下是全文原稿。 2009年8月左右,由於業務擴展的需要,我們的團隊開始了一個新項目的研發,

原创 hadoop-vfs(fuse_dfs)線上問題定位

問題現象: hadoop-vfs掛載目錄顯示亂碼,且list目錄時出現input/output error. -rw-r--r--  1 ***** *****   13366 2010-02-19 08:55 ********.txt 

原创 解讀NoSQL代表Dynamo

NoSQL在過去的一年裏,逐漸已經成爲了家喻戶曉的東西,我(54chen)自從去年開始人人網的NoSQL系統Nuclear的研發以來,一直 看着NoSQL越來越熱,越來越引來大家的圍觀。受infoQ霍師傅之託,特作此文,一來作過去一年的

原创 對雲計算中幾種基礎設施(Dynamo,Bigtable,Map/Reduce等)的樸素看法

前言     雲計算的概念近期可謂如火如荼,備受關注。我先前聽到“雲”這個名詞時,很是覺得太過玄乎——也不知道它用在哪裏,更不瞭解它如何實現,總有霧裏看花的感覺!     好在近期工作需要的緣故,學習和開發過類似於“雲計算”基礎設施

原创 優酷網架構學習筆記

記得以前給大家介紹過視頻網站龍頭老大YouTube的技術架構,相信大家看了都會有不少的感觸,互聯網就是這麼一個神奇的東西。今天我突然想到,優酷網在國內也算是視頻網站的老大了,不知道他的架構相對於YouTube是怎麼樣的,於是帶着這個好

原创 我的Java學習推薦書目

    一直有這麼個想法,列一下我個人認爲在學習和使用Java過程中可以推薦一讀的書籍,給初學者或者想深入的朋友一些建議,幫助成長。推薦的的都是我自己讀過,也會推薦一些朋友讀過並且口碑不錯的書籍。 一、基礎類 1、《Thinking in

原创 Nutch Crawler工作流程及文件格式詳細分析

Crawler和Searcher兩部分被盡是分開,其主要目的是爲了使兩個部分可以布地配置在硬件平臺上,例如Crawler和Searcher分別被放置在兩個主機上,這樣可以極大的提高靈活性和性能。 一、總體介紹: 1、先注入種子urls到c

原创 Lucene學習總結之一:全文檢索的基本原理

一、總論 根據http://lucene.apache.org/java/docs/index.html 定義: Lucene 是一個高效的,基於Java 的全文檢索庫。 所以在瞭解Lucene之前要費一番工夫瞭解一下全文檢索。 那麼

原创 Nutch搜索引擎系統架構

下面分析一下Nutch搜索引擎系統的特點。 一、系統架構   總體上Nutch可以分爲2個部分:抓取部分和搜索部分。抓取程序抓取頁面並把抓取回來的數據做成反向索引,搜索程序則對反向索引搜索回答用戶的請求。抓 取程序和搜索程序的接口

原创 存儲雲結構比較——Dynamo VS Bigtable

存儲雲結構比較——Dynamo VS Bigtable 比較典型的存儲雲基礎系統有Amazon公司的Dynamo系統與Google公司的Bigtable系統,這兩種系統不但已經開始是商用(參見S3 服務和 Google App E

原创 natch常用的幾個類

抓取目錄分析 一共生成5個文件夾,分別是: l         crawldb目錄存放下載的URL,以及下載的日期,用來頁面更新檢查時間. l         linkdb目錄存放URL的互聯關係,是下載完成後分析得到的. l      

原创 Subversion 用戶眼中的 Git (10): Git 命令行的人性化設計

Git 命令行的人性化設計?剛剛接觸 Git 的 SVN 用戶一定不予認同。 因爲在 SVN 用戶看來,co 必須嚴格寫成 checkout, ci 必須嚴格寫成 checkin,st 必須嚴格寫成 status 的版本控制系統,怎麼能說

原创 nutch1.3+hadoop0.20.2+solr3.2搭建

一 簡介 1 Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 Nutch 致力於讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. Nutch

原创 Subversion 用戶眼中的 Git (9): 單親 VS 多親

SVN 和 GIT 對比的系列博文尚有幾篇一直放在草稿中,處於構思階段,今天從故紙堆裏檢出來(checkout?) 我們在《Subversion 用戶眼中的 Git (7): 完全不同的分支和里程碑的實現》中介紹過,Git 和 Svn

原创 HBase隨機寫以及隨機讀性能測試

http://feed.feedsky.com/bluedavy 根據最近生產環境使用的經驗,更多的項目的採用,以及採用了更加自動的測試平臺,對HBase做了更多的場景的測試,在這篇blog中來分享下純粹的隨機寫和隨機讀的性能數據,同