原创 JVM調優:選擇合適的GC collector (二)

ParallelGC 再來看看parallelGC的結果。 截取其中一段放大如下:   JVM參數如下:java -jar -Xms10g -Xmx15g -XX:+UseParallelGC -XX:ParallelGCThre

原创 Hadoop源代碼的邊角料:HDFS的數據通信機制

這陣子花了點時間讀了讀HDFS的源代碼。有所得。 不過網上關於Hadoop源代碼的解析已經挺多了,所以自稱爲“邊角料”,也就是一些零散的心得和想法。   簡單而言,HDFS分爲了三個部分: NameNode,處於master的地位,維護

原创 JVM調優:選擇合適的GC collector (三)

CMS Collector 在很多地方,CMS Collector常被翻譯成“併發”,而ParallelGC被稱爲“並行”,但中文裏,這兩詞的區分度並不明顯。事實上,所謂的Parallel是指,在執行GC的時候將會有多個GC線程共同工

原创 異步機制(Asynchronous) -- (三)和同步機制的本質區別

矛盾很久,不確定是否該用“本質”這個詞,覺着自己好像還沒資格這麼說。其實,這篇探討的是換個角度看待同步和異步的差異。   爲了分析同步和異步的區別,還是以前兩篇中出現過的Client發送request和接收response的程序爲例。如

原创 基於Heritrix的增量抓取

雖然打着Heritrix的名頭,但本文更多的還是談談增量抓取的基本思想,Heritrix只是正好被用來做爲例子。 如果你不是隨便寫個爬蟲抓着玩,那麼一定會碰到一個問題,就是增量抓取。不管是百度,google這樣的廣泛搜索引擎,還是現在很

原创 使用Super Smack進行MySQL性能測試

原本打算用mysql自帶的mysqlslap做壓力測試,可惜這工具不給力,可控制的地方不多,尤其不能夠產生隨機的測試語句。遂改用super smack。貌似它風評還不錯。安裝 1.從網上下載tar.gz的安裝包。http://vega

原创 RabbitMQ的安裝,配置,監控

上一篇提到了用MongoDB的鬱悶,這一篇博客則是嘗試了另外一個新東西 - RabbitMQ 的結果。所不同的是,RabbitMQ給我的感覺很棒。強力推薦! 安裝 RabbitMQ是基於Erlang的,所以首先必須配置Erlang環境。

原创 簡述網絡爬蟲的系統實現

網絡爬蟲常常被人所忽略,特別是和搜索引擎的光環相比,它似乎有些暗淡無光。我很少看見有詳細介紹爬蟲實現的文章或者文檔。然而,爬蟲其實是非常重要的一個系統,特別是在今天這個數據爲王的時代。如果你是一個剛剛開始的公司或者項目,沒有任何原始的數據

原创 不簡單的URL去重

發現我有好幾篇blog的前綴都是用的“不簡單”,它大概描述了這樣一個狀態:一個看起來很簡單的任務在實踐之後,發現其實很不容易。很多事情都是這樣,如果不是親自去做,如果不是仔細鑽研,那就只能處於霧裏看花的狀態。 這讓我想到另一個故事,在我畢

原创 爬蟲工具Heritrix初體驗

需要找一個工具去爬取某個網站,簡單調研後剩下了兩個候選:Heritrix和Nutch。最後聽說Heritrix可定製的地方比較多,更加靈活。恰好這是我需要的。遂決定採用Heritrix,初步嘗試後發現效果不錯。具體的好處在於:配置簡單,有

原创 關於實現(大)系統的一些小體會

突然發現自己很久沒有更新博客了。主要的原因還是這陣子特別懶,沒有努力學習新的東西,光忙着每天的日常任務。佛曰:這樣不好,不好... 這些體會是基於一個這樣的系統:它包含有十幾個大小不一的模塊,這些模塊分佈在不同的機器上,每個請求都需要這

原创 一些flash memory/SSD的基礎知識

很久沒更新blog了。前一陣子經歷了人生第一次跳槽,比想象中的艱難多了。畢竟是第一份工作,離開還是挺傷感的。新的工作剛剛開始,希望一切順利。這篇blog是五一期間寫的,今天正式貼出來。寫技術blog是個好習慣,我要保持!   在前東家的

原创 筆記:MySQL Spatial Extensions

最好的Spatial Database(空間數據庫)當然是Oracle家的,可惜沒用過。最好的開源的Spatial Database一般公認是PostGIS,以前用過一陣子,安裝特別麻煩,不過各種功能很齊全。前段時間嘗試了一下MySQL的

原创 立此存照:圖像處理技術將大放異彩

做個預測,放在這裏,不知道若干年之後能否應驗:5-10年內,圖像處理技術將會走出實驗室而大放異彩,並會基於此誕生很多新的應用。理由:1. 圖片資源已經非常豐富,並且人們生產高質量圖片的手段越來越多,因此存在潛在的消費圖片的需求;2.技術已

原创 MongoDB讓人失望

最近由於項目需要,使用了MongoDB存儲數據。坦率的說,挺讓人失望的,當然,不排除對MongoDB不太熟悉的原因。但總的說來,感覺名不副實,想讓大家喜歡並接受,MongoDB還有很長的路要走。 簡單說一下碰到的問題: 1. 非常耗內存。