原创 Java OutOfMemory 錯誤

相信有一定java開發經驗的人或多或少都會遇到OutOfMemoryError的問題,這個問題曾困擾了我很長時間,隨着解決各類問題經驗的積累以及對問題根源的探索,終於有了一個比較深入的認識。在解決java內存溢出問題之前,需要對jvm(ja

原创 SPARKSQL使用MYSQL做METADATA

將hive-site.xml拷貝到$SPARK_HOME/conf中配置如 hive使用 mysql一樣,注意賦予相應的權限。javax.jdo.option.ConnectionURLjdbc:mysql://xxxx:3306/spar

原创 centos服務器開機自動啓動hadoop和spark

在 /etc/rc.local裏添加su - hadoop -c /home/hadoop/hadoop/sbin/start-dfs.shsu - hadoop -c /usr/local/spark/spark-1.3.0-bin-ha

原创 Ambari安裝

Ambari是Apache的一個開源項目,專門用來安裝和管理hadoop環境,並提供GUI的WEB頁面。安裝過程非常簡單,只有幾步。以在CentOS6上操作爲例1、下載repo信息cd /etc/yum.repos.d/wget http:

原创 數據挖掘-Mahout-Canopy聚類實踐

1、原理解釋(1)原始數據集合List按照一定的規則進行排序,初始距離閾值設置爲T1、T2,T1>T2。(2)在List中隨機挑選一個數據向量A,使用一個粗糙距離計算方式計算A與List中其它樣本數據向量之間的距離d。(3)根據2中的距離d

原创 架構師應該做些什麼

有不少朋友曾經問過我,架構師究竟是一個什麼職位,一個架構師都應該做些什麼纔是一個合格的甚至優秀的架構師呢?這個問題估計很多人也都有類似的疑惑。對於這樣的問題,我覺得不妨先說說在我眼裏什麼叫架構。所謂架構,就是結構和框架,就是研究部件與耦合的

原创 time命令中的real,user,sys

Real 是時鐘時間-程序從開始至結束的總時間。他包括期間其他進程所佔用的時間片和進程被阻塞的時間(如IO等待的時間)User 被測試程序在用戶模式下所花的CPU時間。他是進程執行的正真的CPU時間。其他進程調度的時間片以及阻塞(如IO)的

原创 CentOS7 安裝 tensorflow 0.8

1、確認python爲2.7.0以上版本python -V2、安裝pip install https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.8.0-cp27-n

原创 搭建最簡易的TensorFlow集羣

1、裝好三臺虛擬機tf1, tf2, tf3(略)2、在tf1上vim server.pyimport tensorflow as tfworker1 = "tf1:10000"worker2 = "tf2:10000"worker3 =

原创 安裝Pig

安裝Pig是一項非常簡單的工作,除了下載有點慢以外1、安裝好hadoop 2.x(略)2、安裝pigwget http://apache.dataguru.cn/pig/latest/pig-0.15.0.tar.gztar zxvf pi

原创 tensorflow入門簡單卷積神經網絡

from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tf#定義InteractiveSessionsess = tf.Interact

原创 配置並啓動spark的thriftserver網關

1、保證spark-sql已經使用mysql作爲metadata存儲介質2、啓動thrift網關$SPARK_HOME/sbin/start-thriftserver.sh --driver-class-path /usr/local/s

原创 安裝cassandra 2.2.4

1、準備5臺Linux主機略2、關閉防火牆service iptables stopchkconfig iptables off3、編輯/etc/hostsnode1node2node3node4node54、下載cassandra在nod

原创 系統優化的基本原則

系統優化應該是一個老生常談的話題了。不管你用的是Linux、Windows還是一些小型機用的Unix系統亦或其它系統,優化這個話題幾乎是永遠避不開的。永遠沒有最快只有更快,人類對效率的苛求是貪婪的,當然這也是人類技術進步的重要原動力之一。優

原创 部署PrestoDB on Cassandra

1、準備一個5節點的cassandra集羣略node1,node2,node3,node4,node52、在node1上下載prestowget https://repo1.maven.org/maven2/com/facebook/pre