原创 hadoop 集羣優化

1.系統參數調整 中文名稱 英文名稱 默認值 推薦值或推薦策略 修改命令 作用 備註 socket的監聽隊列最大值 net.core.somaxconn 128 1024或更大 echo 1024 >/pro

原创 hbase minor compact

首先hbase從memstore刷新到磁盤,大小會減小很多,128m的menstore刷寫到磁盤只有4-5m 下面是必須要知道的幾個關鍵參數 cdh5.8版本 HStore 壓縮閾值 hbase.hstore.compaction

原创 hbase LSM樹個人理解

寫這些只是記錄自己平時看資料的成果,無關其他。 先記錄下B樹和B+樹 B樹(官方定義): 1、根節點至少有兩個子節點 2、每個節點有M-1個key,並且以升序排列 3、位於M-1和M key的子節點的值位於M-1 和M

原创 java類加載 Constructor類

類的初始化時機1.創建類的實例2.訪問類或接口的靜態變量(static final常量除外,static final變量可以)3.調用類的靜態方法4.反射(Class.forName(packageName.className))5.初始

原创 hdfs+yarn 參數調優

1.系統參數調整 中文名稱 英文名稱 默認值 推薦值或推薦策略 修改命令 作用 備註 socket的監聽隊列最大值 net.core.somaxconn 128 1024或更大 echo 1024 >/proc/

原创 http 和 https 總結

轉自:http://www.cnblogs.com/ok-lanyan/archive/2012/07/14/2591204.html HTTP是一個屬於應用層的面向對象的協議,由於其簡捷、快速的方式,適用於分佈式超媒體信息系統。它於

原创 linux查看端口是否打開 是否被佔用

1判斷端口是否是通的   telnet   示例:telnet   ip   port   顯示   telnet master 8032 Trying 192.168.1.10... Connected to m

原创 修改CM管理主機IP

轉自:http://www.aichengxu.com/diannao/37833.htm 修改CM管理主機IP(CDH5.0集羣IP更改),有需要的朋友可以參考下。 在一個項目部署過程中,通過CM5.0部署好了集羣(27個節點),

原创 系統整理java垃圾回收

一種垃圾回收算法一般要做2件基本的事情:(1)發現無用信息對象;(2)回收被無用對象佔用的內存空間,使該空間可被程序再次使用。 根集的概念 引用計數器法 ,引用+1,退出作用域-1,爲0滿足回收 tracing算法,標記和清除(

原创 java g1垃圾回收

Hotspot 架構圖 紫色爲調優的主要地方 G1 垃圾收集器(Garbage Collector) G1 垃圾收集器 G1 (Garbage-First)是一款面向服務器的垃圾收集器,主要針對配備多顆處理器及大容量內存的機器

原创 python爬蟲 愛奇藝VIP視頻

爬取愛奇藝的VIP視頻 GitHub地址: https://github.com/hwwu/deep_learning/tree/master/venv/pachong/iqiyi 解析網址在代碼裏有,需要注意的是每個解析網址的返回格式可

原创 text-detection-ctpn 圖片文字識別 mac環境 cpu版安裝

1.git上下載源碼 2.因爲默認是gpu版本的,修改爲不用gpu有幾個坑    先參考 https://github.com/eragonruan/text-detection-ctpn/issues/43    把需要註釋的幾個地方註

原创 模型融合

參考這個 https://mlwave.com/kaggle-ensembling-guide/

原创 mac下 anaconda的安裝和使用

1.建議直接從鏡像下載,安裝,一直點擊下一步即可 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 安裝完之後,環境變量已經寫到了 ~/.bash_profile ,但是需要手動

原创 文章標題

一)準備源代碼 下載代碼(使用git) git clone https://github.com/apache/spark.git 切換合適的branch版本(2.1.0) ➜ spark git:(master) git ta