原创 一文教你看懂大數據的技術生態圈:Hadoop,hive,spark
一文教你看懂大數據的技術生態圈:Hadoop,hive,spark 責任編輯:editor005 | 2015-03-02 13:50:51 本文摘自:中國大數據 大數據本身是個很寬泛的概念,Hadoop生態圈(或者泛生態圈)基本
原创 RDD:基於內存的集羣計算容錯抽象
該論文來自Berkeley實驗室,英文標題爲:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面
原创 Maven實戰(三)——多模塊項目的POM重構
轉自http://www.infoq.com/cn/news/2011/01/xxb-maven-3-pom-refactoring/ 在本專欄的上一篇文章POM重構之增還是刪中,我們討論了一些簡單實用的POM重構技巧,包括重構的前
原创 file.encoding
參考鏈接 http://blog.csdn.net/zhuyijian135757/article/details/37706437 http://blog.csdn.net/elia1208/article/details/6
原创 Java線程監聽,意外退出線程後自動重啓
摘自 http://my.oschina.net/reachwang/blog/296194 摘要 觀察者模式:定義對象之間的一種一對多的依賴關係,當對象的狀態發生改變時,所有依賴於它的對象都得到通知並且被自動更新。 觀察者模式
原创 對TCP/IP網絡協議的深入淺出歸納
摘自 http://www.cnblogs.com/visec479/archive/2014/07/28/3872486.html 前段時間做了一個開發,涉及到網絡編程,開發過程比較順利,但任務完成後始終覺得有一些疑惑。主要是
原创 NoSQL
來源於https://www.digitalocean.com/community/tutorials/a-comparison-of-nosql-database-management-systems-and-models
原创 Java線程關閉的3種方法
摘自網絡 Java線程關閉,總的來說有3種: 1.使用狀態位,這個簡單,就不多說了: 複製代碼代碼如下: public class Task extends Thread { private volatile boolean
原创 java常用工具
jpsjstatjstackjinfojmap
原创 “大數據” Hadoop,Spark和Storm
大數據(Big Data) 大數據,官方定義是指那些數據量特別大、數據類別特別複雜的數據集,這種數據集無法用傳統的數據庫進行存儲,管理和處理。大數據的主要特點爲數據量大(Volume),數據類別複雜(Variety),數據處理速度
原创 正則表達式分組、斷言詳解
正則表達式中的斷言,作爲高級應用出現,倒不是因爲它有多難,而是概念比較抽象,不容易理解而已,今天就讓小菜通俗的講解一下。 如果不用斷言,以往用過的那些表達式,僅僅能獲取到有規律的字符串,而不能獲取無規律的字符串。
原创 訪問差異類型的集合類--visitor模式入門
一,問題提出訪問同一類型的集合類是我們最常見的事情了,我們工作中這樣的代碼太常見了。 1 Iterator ie = list.iterator();2 while (ie.hasNext()) {3 Person
原创 Google式的搜索引擎實現
Nutch是一個基於Lucene,類似Google的完整網絡搜索引擎解決方案,基於Hadoop的分佈式處理模型保證了系統的性能,類似Eclipse的插件機制保證了系統的可客戶化,而且很容易集成到自己的應用之中。 Nutch 0.8
原创 開源爬蟲Labin,Nutch,Neritrix介紹和對比
Larbin開發語言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是個基於C++的web爬蟲工具,擁有易於操作的界面,不過只能跑在LINUX下,在一臺普通PC下larbin每
原创 後臺線程(守護線程)
所謂的後臺線程,是指在程序運行的時候在後臺提供一種通用服務的線程,並且這種線程並不屬於程序中不可或缺的部分。因此當所有的非後臺線程結束時,程序也就終止了,同時會殺死所有後臺線程。反過來說,只要有任何非後臺線程(用戶線程)還在運行,程序就