原创 ubuntu編譯安裝vim7.4

環境:ubuntu10.04 安裝vim的方法,有直接安裝和手動編譯安裝。 當然前者比較方便。 1、直接安裝 # sudo apt-get vim vim-runtime這種方式安裝一般是vim7.2版本的,基本沒啥問題,如果少了什麼

原创 機器學習-Kaggle競賽-Digit recognizer

第一次接觸Kaggle比賽。從練習區開始~~~ 做了一個最簡單的手寫數字識別練習(Digit Recognizer)。 嘗試了用KNN,bayes,Logistic Regression,svm。 首頁拿到練習數據,digi

原创 設計模式學習--工廠模式(C++)

工廠方法模式的意義是定義一個創建產品對象的工廠接口,將實際創建工作推遲到子類當中。核心工廠類不再負責產品的創建,這樣核心類成爲一個抽象工廠角色,僅負責具體工廠子類必須實現的接口,這樣進一步抽象化的好處是使得工廠方法模式可以使系統在不修改具

原创 Hadoop 在關機重啓後,namenode啓動報錯

Hadoop 在關機重啓後,namenode啓動報錯: 2011-10-21 05:22:20,504 INFO org.apache.hadoop

原创 Unix-進程間通信

1、有名管道間通信 read進程代碼: #include<sys/types.h> #include<sys/stat.h> #include<errno.h> #include<fcntl.h> #include<stdio.h>

原创 hadoop學習-海量日誌分析(提取KPI指標)

1、Web日誌分析 從Web日誌中,我們可以獲取網站各類頁面的PV值(PageView,頁面訪問量),訪問IP;或者是用戶停留時間最長的頁面等等,更復雜的,可以分析用戶行爲特徵。 在Web日誌中,每條日誌都代表用戶的一次訪問行爲,以下面的

原创 hadoop學習--K-Means算法實現

本例子介紹使用hadoop做聚類分析。通過mapreduce實現KMeans算法。 1、KMeans算法介紹: k-means 算法接受參數 k ;然後將事先輸入的n個數據對象劃分爲 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象

原创 Hadoop學習--HBase與MapReduce的使用

HBase以表的形式存儲數據,每個表由行和列組成,每個列屬於一個特定的列族(Column Family)。表中由行列確定的存儲單元稱爲一個元素(Cell),每個元素保存了同一份數據的多個版本,由時間戳來標識。 下面就從安裝開始......

原创 hadoop學習-stream-Top K記錄

求海量數據中最大的K個記錄 來源於《hadoop實戰》(hadoop in action)(美 拉姆)第4.7章節有關stream的習題。 數據源:apat63_99.txt 專利描述數據集,包含專利號、專利申請年份等等信息。可從美國國家

原创 hadoop學習-Mapper和Reducer的輸出類型

Mapper過程:Mapper<K1, V1, K2, V2 > Reducer過程:Reducer<K2, V2, K3, V3 > K1,V1 的類型一般由job.setInputFormatClass()指定,比如job.setIn

原创 C++ 多線程拷貝文件(demo)

多線程拷貝文件 #include <stdio.h> #include <pthread.h> #include <dirent.h> #include <string.h> #include <stdlib.h> #inclu

原创 設計模式學習-Decorator裝飾者模式

裝飾模式:動態地將責任附加到對象上。若要擴展功能,裝飾者提供了比繼承更有彈性的替代方案。 Beverage 飲料        Espresso      濃咖啡 CondimentDecorator       配料,繼承於Bevera

原创 設計模式學習-Strategy策略模式

紙上得來終覺淺,看一遍沒啥感覺。重新用C++寫一遍有一點點感覺。記下來慢慢看,希望有更多感覺。。。 1、類說明 Duck 鴨子接口; RedHeadDuck鴨子種類之一,繼承於Duck RubberDuck鴨子種類之一,繼承於Duck

原创 hadoop學習--基於Hive的Hadoop日誌分析

本文將本地的hadoop日誌,加載到Hive數據倉庫中,再過濾日誌中有用的日誌信息轉存到Mysql數據庫裏。 環境:hive-0.12.0 + Hadoop1.2.1 1、日誌格式 2014-04-17 22:53:30,621 INF

原创 Github for Windows使用圖文教程

Git已經變得非常流行,連Codeplex現在也已經主推Git。Github上更是充斥着各種高質量的開源項目,比如ruby on rails,cocos2d等等。 對於習慣Windows圖形界面的程序員來講,Github的使用是需要點