原创 hadoop2.4.1 spark1.0.1編譯

spark編譯用的是2.4.1版本,而hadoop用的則是2.5.0版本,這樣在進行rpc通信的時候,會導致失敗。於是將$SPARK_HOME下的pom.xml中的protobuf版本改爲2.5.0,重新進行編譯 重新編譯spark

原创 hadoop hdfs追加寫

public class PutMerge {/*** @param args*            void* @throws IOExcept

原创 presto內存分配參數

假如設置最大Heap內存爲35G 需要考慮的Heap最大值因素,因爲需要給系統與其他守護進程留有空間,所以最好不要將內存設置爲機器內存大小 prestor參數 query.max-memory-per-node 每個機器上用於執行用戶任務

原创 apache pulsar參數

BookKeeper bookiePort bookeeper server監聽端口 allowLoopback 是否接受回127.0.0.1地址 listeningInterface 默認網口,比如:eth0 journalDirect

原创 海量數據相似度計算之simhash和海明距離

通過 採集系統 我們採集了大量文本數據,但是文本中有很多重複數據影響我們對於結果的分析。分析前我們需要對這些數據去除重複,如何選擇和設計文本的去重算法?常見的有餘弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些算

原创 jboss下將日誌文件輸出到不同文件

properies文件格式  log4j.logger.cn.com.Test= DEBUG, test log4j.appender.test=org.apache.log4j.FileAppender log4j.appender.t

原创 Bloom filter簡介

日常生活中,包括在設計計算機軟件時,我們經常要判斷一個元素是否在一個集合中。比如在字處理軟件中,需要檢查一個英語單詞是否拼寫正確(也就是要判斷它是否在已知的字典中);在 FBI,一個嫌疑人的名字是否已經在嫌疑名單上;在網絡爬蟲裏,一個網

原创 jdk1.7新特性

1.diamond operator(菱形操作符) 以前代碼 Map<String, List<Trade>> trades = new TreeMap<String, List<Trade>> 現在可以這樣 Map<String,

原创 Raid簡介及區別

RAID是1988等幾人提出來的。從那以後,磁盤陣列技術發展很快,並逐漸走向成熟。 RAID及高性能(Performance)通過多個磁盤組織在一起作爲一個邏輯卷提供磁盤跨越功能Oslash;讀出多個磁盤以提高訪問磁盤的速度 RAID0 

原创 一個杭州人的美國求醫經歷

今天推送的這篇文章,是一位叫“傾心2007”的網友發在19樓上的一個帖子。 2012年春節,她老公被診斷爲脊柱腫瘤,初診時手術概率幾乎爲零。最後他們決定赴美治療,這是她寫的赴美就醫經歷。 她在文章的開頭說,去美國看病只是人生絕望中孤

原创 hadoop 64 native庫問題解決方式

需要的環境 Unix JDK 1.6+ * Maven 3.0 or later * Findbugs 1.3.9 (if running findbugs) * ProtocolBuffer 2.5.0 * CMake 2.6 or n

原创 配置aspectwerkz在jboss

在載aspectwerkzhttp://dist.codehaus.org/aspectwerkz/distributions/aspectwerkz-2.0.zip?download 解壓 修改jboss run.sh aoplib="

原创 Bit-map java實現

private static int BITSPERWORD = 32;private static int SHIFT = 5;private s

原创 CDH4 impala安裝配置

impala基於CDH,提供針對HDFS,hbase的實時查詢,查詢語句類似於hive 包括幾個組件 Clients:提供Hue, ODBC clients, JDBC clients, and the Impala Shell與impa

原创 Fedora 17 安裝字體

下載相關字體,解壓到/usr/share/fonts目錄下 chmod  755 目錄名 cd 目錄 chmod 644 * 建立字體緩存:cd /usr/share/fonts/目錄 mkfontscale mkfontdir