原创 海納百川——人人網海量存儲系統Nuclear開發手記
此文爲《程序員》雜誌約稿,發表在2010年9月刊。懷念過去美好的時光和所有的UGC兄弟真摯友誼,謹以此文爲個人職業發展階段作一個美好的終結。以下是全文原稿。 2009年8月左右,由於業務擴展的需要,我們的團隊開始了一個新項目的研發,
原创 hadoop-vfs(fuse_dfs)線上問題定位
問題現象: hadoop-vfs掛載目錄顯示亂碼,且list目錄時出現input/output error. -rw-r--r-- 1 ***** ***** 13366 2010-02-19 08:55 ********.txt
原创 解讀NoSQL代表Dynamo
NoSQL在過去的一年裏,逐漸已經成爲了家喻戶曉的東西,我(54chen)自從去年開始人人網的NoSQL系統Nuclear的研發以來,一直 看着NoSQL越來越熱,越來越引來大家的圍觀。受infoQ霍師傅之託,特作此文,一來作過去一年的
原创 對雲計算中幾種基礎設施(Dynamo,Bigtable,Map/Reduce等)的樸素看法
前言 雲計算的概念近期可謂如火如荼,備受關注。我先前聽到“雲”這個名詞時,很是覺得太過玄乎——也不知道它用在哪裏,更不瞭解它如何實現,總有霧裏看花的感覺! 好在近期工作需要的緣故,學習和開發過類似於“雲計算”基礎設施
原创 優酷網架構學習筆記
記得以前給大家介紹過視頻網站龍頭老大YouTube的技術架構,相信大家看了都會有不少的感觸,互聯網就是這麼一個神奇的東西。今天我突然想到,優酷網在國內也算是視頻網站的老大了,不知道他的架構相對於YouTube是怎麼樣的,於是帶着這個好
原创 我的Java學習推薦書目
一直有這麼個想法,列一下我個人認爲在學習和使用Java過程中可以推薦一讀的書籍,給初學者或者想深入的朋友一些建議,幫助成長。推薦的的都是我自己讀過,也會推薦一些朋友讀過並且口碑不錯的書籍。 一、基礎類 1、《Thinking in
原创 Nutch Crawler工作流程及文件格式詳細分析
Crawler和Searcher兩部分被盡是分開,其主要目的是爲了使兩個部分可以布地配置在硬件平臺上,例如Crawler和Searcher分別被放置在兩個主機上,這樣可以極大的提高靈活性和性能。 一、總體介紹: 1、先注入種子urls到c
原创 Lucene學習總結之一:全文檢索的基本原理
一、總論 根據http://lucene.apache.org/java/docs/index.html 定義: Lucene 是一個高效的,基於Java 的全文檢索庫。 所以在瞭解Lucene之前要費一番工夫瞭解一下全文檢索。 那麼
原创 Nutch搜索引擎系統架構
下面分析一下Nutch搜索引擎系統的特點。 一、系統架構 總體上Nutch可以分爲2個部分:抓取部分和搜索部分。抓取程序抓取頁面並把抓取回來的數據做成反向索引,搜索程序則對反向索引搜索回答用戶的請求。抓 取程序和搜索程序的接口
原创 存儲雲結構比較——Dynamo VS Bigtable
存儲雲結構比較——Dynamo VS Bigtable 比較典型的存儲雲基礎系統有Amazon公司的Dynamo系統與Google公司的Bigtable系統,這兩種系統不但已經開始是商用(參見S3 服務和 Google App E
原创 natch常用的幾個類
抓取目錄分析 一共生成5個文件夾,分別是: l crawldb目錄存放下載的URL,以及下載的日期,用來頁面更新檢查時間. l linkdb目錄存放URL的互聯關係,是下載完成後分析得到的. l
原创 Subversion 用戶眼中的 Git (10): Git 命令行的人性化設計
Git 命令行的人性化設計?剛剛接觸 Git 的 SVN 用戶一定不予認同。 因爲在 SVN 用戶看來,co 必須嚴格寫成 checkout, ci 必須嚴格寫成 checkin,st 必須嚴格寫成 status 的版本控制系統,怎麼能說
原创 nutch1.3+hadoop0.20.2+solr3.2搭建
一 簡介 1 Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。 Nutch 致力於讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. Nutch
原创 Subversion 用戶眼中的 Git (9): 單親 VS 多親
SVN 和 GIT 對比的系列博文尚有幾篇一直放在草稿中,處於構思階段,今天從故紙堆裏檢出來(checkout?) 我們在《Subversion 用戶眼中的 Git (7): 完全不同的分支和里程碑的實現》中介紹過,Git 和 Svn
原创 HBase隨機寫以及隨機讀性能測試
http://feed.feedsky.com/bluedavy 根據最近生產環境使用的經驗,更多的項目的採用,以及採用了更加自動的測試平臺,對HBase做了更多的場景的測試,在這篇blog中來分享下純粹的隨機寫和隨機讀的性能數據,同