原创 Hadoop 多表 join:map side join 範例
在沒有 pig 或者 hive 的環境下,直接在 mapreduce 中自己實現 join 是一件極其蛋疼的事情,MR中的join分爲好幾種,比如有最常見的 reduce side join,map side join,sem
原创 Win7下VMware橋接模式網絡問題
在VMware橋接模式下,如果把Windows7的網絡斷開,VMware中的虛擬機和Windows7主機互相不能通信,它們2個也不能和互聯網通信(這個是毫無疑問的,因爲都斷網了); 在沒斷網的情況下,虛擬機和主機2者處於同一局域網中,IP
原创 需要學會使用的工具——持續更新中
1.超級日誌服務器-Splunk Splunk 是一款頂級的日誌分析軟件,如果你經常用 grep、awk、sed、sort、uniq、tail、head 來分析日誌,那麼你需要 Splunk。能處理常規的日誌格式,比如 apache、sq
原创 跟我學Hadoop:Ubuntu系統上面安裝Sun/Oracle JDK
跟我學Hadoop:Ubuntu系統上面安裝Sun/Oracle JDK 下面操作是在虛擬機VMware做的 執行 sudo apt-get install *(*代表具體軟件名) 方式不能下載時用下面方式: 1.去Oracle官方下載x
原创 利用secureCRT從windows向Linux服務器上傳文件
利用secureCRT從windows向Linux服務器上傳文件,除了sz、rz的命令,還能在菜單“文件”——“連接SFTP標籤頁”來用類似於FTP的方式來上傳下載文件。
原创 mysql批量插入數據方法
insert插入多條數據有二種方法一種是寫多條insert語句用";"號分割每條sql,一種是insert本身的多個value 1,寫多條insert用";"分割 這個很簡單,;號是mysql執行sql的結束符,寫多個insert用;號
原创 PHP資料鏈接(持續更新中...)
1.實戰:Ubuntu系統環境下搭建LAMP服務 http://my.oschina.net/leejun2005/blog/93482
原创 不懂商業就別談數據
前一段日子見到一位數據發燒友,我們兩個有一個一致的觀點:電子商務發展速度越來越快,這個行業的趨勢變化也越來越快。對於電子商務公司老闆來說,想要自己永遠跟着趨勢走,學會數據驅動是必然的了。 慶幸的是,今年搞電
原创 mysql學習之一
explain SQL語句:查詢消耗的時間 select version():查看mysql版本 show profiles:分析sql性能 set profiling=1:打開profiles功能,默認
原创 JVM優化-縮短eclipse的啓動時間
追加: 首先要聲明一下,這個案例在<深入理解JVM虛擬機>這本書中也提到過. 這本書是我曾經學習JVM的第一本書.裏面關於Heap的優化思想,來源於此.建議大家想學JVM原理的,可以找來此書看看. 寫這篇文章,是因爲最近在給一個社交網站服
原创 mysql之union
今天來寫寫union的用法及一些需要注意的。 union:聯合的意思,即把兩次或多次查詢結果合併起來。 要求:兩次查詢的列數必須一致 推薦:列的類型可以不一樣,但推薦查詢的每一列,想對應的類型以一樣 可以來自多張表的數據:多次s
原创 把數值轉化爲“00:00:00”格式
輸入(是取的數據庫表中的數據):234.23、245.00、23.8、0等等 期望輸出:“00:00:00”格式 例如:輸入 234.23則先四捨五入爲234,然後轉化爲“00:03:54” 使用第一種方法在本機得出正確結果,在測
原创 各種技術資料
1.分佈式版本 http://www.oschina.net/question/12_7502 2.hadoop、hive等 http://archive.cloudera.com/cdh/3/ 3. cdh4.2.0 https:
原创 刪除catalina.out中的數據、動態查看catalina.out的數據
刪除catalina.out中的數據命令: > catalina.out 動態查看catalina.out的命令: tail -f catalina.out
原创 今天學習所敲命令集合
請注意,下面有些命令是錯誤的(只需要看紅色的): 1 pwd 2 uname 3 uname -a 4 sudo apt-get source ssh 5 sudo apt-ge