原创 一文教你看懂大數據的技術生態圈:Hadoop,hive,spark

一文教你看懂大數據的技術生態圈:Hadoop,hive,spark 責任編輯:editor005 |  2015-03-02 13:50:51 本文摘自:中國大數據 大數據本身是個很寬泛的概念,Hadoop生態圈(或者泛生態圈)基本

原创 RDD:基於內存的集羣計算容錯抽象

該論文來自Berkeley實驗室,英文標題爲:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面

原创 Maven實戰(三)——多模塊項目的POM重構

轉自http://www.infoq.com/cn/news/2011/01/xxb-maven-3-pom-refactoring/   在本專欄的上一篇文章POM重構之增還是刪中,我們討論了一些簡單實用的POM重構技巧,包括重構的前

原创 file.encoding

參考鏈接   http://blog.csdn.net/zhuyijian135757/article/details/37706437   http://blog.csdn.net/elia1208/article/details/6

原创 Java線程監聽,意外退出線程後自動重啓

摘自 http://my.oschina.net/reachwang/blog/296194 摘要  觀察者模式:定義對象之間的一種一對多的依賴關係,當對象的狀態發生改變時,所有依賴於它的對象都得到通知並且被自動更新。   觀察者模式

原创 對TCP/IP網絡協議的深入淺出歸納

摘自 http://www.cnblogs.com/visec479/archive/2014/07/28/3872486.html     前段時間做了一個開發,涉及到網絡編程,開發過程比較順利,但任務完成後始終覺得有一些疑惑。主要是

原创 NoSQL

來源於https://www.digitalocean.com/community/tutorials/a-comparison-of-nosql-database-management-systems-and-models      

原创 Java線程關閉的3種方法

摘自網絡   Java線程關閉,總的來說有3種: 1.使用狀態位,這個簡單,就不多說了: 複製代碼代碼如下: public class Task extends Thread {   private volatile boolean

原创 java常用工具

jpsjstatjstackjinfojmap

原创 “大數據” Hadoop,Spark和Storm

大數據(Big Data)   大數據,官方定義是指那些數據量特別大、數據類別特別複雜的數據集,這種數據集無法用傳統的數據庫進行存儲,管理和處理。大數據的主要特點爲數據量大(Volume),數據類別複雜(Variety),數據處理速度

原创 正則表達式分組、斷言詳解

 正則表達式中的斷言,作爲高級應用出現,倒不是因爲它有多難,而是概念比較抽象,不容易理解而已,今天就讓小菜通俗的講解一下。        如果不用斷言,以往用過的那些表達式,僅僅能獲取到有規律的字符串,而不能獲取無規律的字符串。    

原创 訪問差異類型的集合類--visitor模式入門

一,問題提出訪問同一類型的集合類是我們最常見的事情了,我們工作中這樣的代碼太常見了。 1  Iterator ie  =  list.iterator();2  while (ie.hasNext()) {3     Person 

原创 Google式的搜索引擎實現

Nutch是一個基於Lucene,類似Google的完整網絡搜索引擎解決方案,基於Hadoop的分佈式處理模型保證了系統的性能,類似Eclipse的插件機制保證了系統的可客戶化,而且很容易集成到自己的應用之中。   Nutch 0.8

原创 開源爬蟲Labin,Nutch,Neritrix介紹和對比

Larbin開發語言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是個基於C++的web爬蟲工具,擁有易於操作的界面,不過只能跑在LINUX下,在一臺普通PC下larbin每

原创 後臺線程(守護線程)

所謂的後臺線程,是指在程序運行的時候在後臺提供一種通用服務的線程,並且這種線程並不屬於程序中不可或缺的部分。因此當所有的非後臺線程結束時,程序也就終止了,同時會殺死所有後臺線程。反過來說,只要有任何非後臺線程(用戶線程)還在運行,程序就