原创 Hadoop 多表 join:map side join 範例

      在沒有 pig 或者 hive 的環境下,直接在 mapreduce 中自己實現 join 是一件極其蛋疼的事情,MR中的join分爲好幾種,比如有最常見的 reduce side join,map side join,sem

原创 Win7下VMware橋接模式網絡問題

在VMware橋接模式下,如果把Windows7的網絡斷開,VMware中的虛擬機和Windows7主機互相不能通信,它們2個也不能和互聯網通信(這個是毫無疑問的,因爲都斷網了); 在沒斷網的情況下,虛擬機和主機2者處於同一局域網中,IP

原创 需要學會使用的工具——持續更新中

1.超級日誌服務器-Splunk Splunk 是一款頂級的日誌分析軟件,如果你經常用 grep、awk、sed、sort、uniq、tail、head 來分析日誌,那麼你需要 Splunk。能處理常規的日誌格式,比如 apache、sq

原创 跟我學Hadoop:Ubuntu系統上面安裝Sun/Oracle JDK

跟我學Hadoop:Ubuntu系統上面安裝Sun/Oracle JDK 下面操作是在虛擬機VMware做的 執行 sudo apt-get install *(*代表具體軟件名) 方式不能下載時用下面方式: 1.去Oracle官方下載x

原创 利用secureCRT從windows向Linux服務器上傳文件

利用secureCRT從windows向Linux服務器上傳文件,除了sz、rz的命令,還能在菜單“文件”——“連接SFTP標籤頁”來用類似於FTP的方式來上傳下載文件。

原创 mysql批量插入數據方法

insert插入多條數據有二種方法一種是寫多條insert語句用";"號分割每條sql,一種是insert本身的多個value 1,寫多條insert用";"分割 這個很簡單,;號是mysql執行sql的結束符,寫多個insert用;號

原创 PHP資料鏈接(持續更新中...)

1.實戰:Ubuntu系統環境下搭建LAMP服務 http://my.oschina.net/leejun2005/blog/93482

原创 不懂商業就別談數據

        前一段日子見到一位數據發燒友,我們兩個有一個一致的觀點:電子商務發展速度越來越快,這個行業的趨勢變化也越來越快。對於電子商務公司老闆來說,想要自己永遠跟着趨勢走,學會數據驅動是必然的了。         慶幸的是,今年搞電

原创 mysql學習之一

explain SQL語句:查詢消耗的時間 select version():查看mysql版本 show profiles:分析sql性能 set profiling=1:打開profiles功能,默認

原创 JVM優化-縮短eclipse的啓動時間

追加: 首先要聲明一下,這個案例在<深入理解JVM虛擬機>這本書中也提到過. 這本書是我曾經學習JVM的第一本書.裏面關於Heap的優化思想,來源於此.建議大家想學JVM原理的,可以找來此書看看. 寫這篇文章,是因爲最近在給一個社交網站服

原创 mysql之union

今天來寫寫union的用法及一些需要注意的。  union:聯合的意思,即把兩次或多次查詢結果合併起來。  要求:兩次查詢的列數必須一致  推薦:列的類型可以不一樣,但推薦查詢的每一列,想對應的類型以一樣  可以來自多張表的數據:多次s

原创 把數值轉化爲“00:00:00”格式

輸入(是取的數據庫表中的數據):234.23、245.00、23.8、0等等 期望輸出:“00:00:00”格式    例如:輸入 234.23則先四捨五入爲234,然後轉化爲“00:03:54” 使用第一種方法在本機得出正確結果,在測

原创 各種技術資料

1.分佈式版本 http://www.oschina.net/question/12_7502 2.hadoop、hive等 http://archive.cloudera.com/cdh/3/   3.  cdh4.2.0 https:

原创 刪除catalina.out中的數據、動態查看catalina.out的數據

刪除catalina.out中的數據命令:  > catalina.out 動態查看catalina.out的命令: tail -f catalina.out

原创 今天學習所敲命令集合

請注意,下面有些命令是錯誤的(只需要看紅色的):         1  pwd     2  uname     3  uname -a     4  sudo apt-get source ssh     5  sudo apt-ge