原创 幾個常用的xargs使用例子

xargs是一個非常有用的命令。下面給出我常用的幾個例子: 假設有文件 f 內容如下: abc 123 456 789 qwe rty optest命令把命令行輸入原樣輸出,源碼如下: #include <stdio.h> int

原创 Hadoop中map端流程分析

1. map端的主要函數有以下幾個: split --> Record Reader --> map --> partition --> combine(Local Reduce) 2. 以上幾個函數各自的作用如下: split:用

原创 hadoop需要多少個reducer?

Reduce的數目建議是0.95或1.75乘以 (<no. of nodes> * mapred.tasktracker.reduce.tasks.maximum)。 用0.95,所有reduce可以在maps一完成時就立刻啓動,開始

原创 個性化離線實時分析系統pora

1.業務場景 伴隨着市場和技術的發展,個性化已經成爲淘寶搜索的一個重要目標。簡單來說,個性化就是讓每個用戶在使用淘寶搜索時都能夠獲取自己最想要的結果,而不再是千篇一律的展示。實現個性化最直接的手段就是通過分析用戶的歷史行爲日誌,爲用

原创 基於論壇話題段落劃分的答案識別

從實驗室離開兩年了,想不到畢業設計論文被髮表出來了。哈哈 http://www.aas.net.cn/qikan/Cpaper/zhaiyao.asp?bsid=14676 *******************************

原创 c++ string 和 stl算法

toupper,tolower 地球人都知道 C++ 的 string 沒有 toupper ,好在這不是個大問題,因爲我們有 STL 算法: string s("heLLo"); transform(s.begin(), s.end(

原创 python各種類型轉換-int,str,char,float,ord,hex,oct等

int(x [,base ])         將x轉換爲一個整數     long(x [,base ])        將x轉換爲一個長整數     float(x )               將x轉換到一個浮點數    

原创 hadoop之grep

hadoop streaming  -D stream.non.zero.exit.is.failure=false ... #!/bin/sh isdebug=false STREAMING=/home/work/software

原创 hadoop錯誤failed to report status for 600 seconds

hadoop運行reduce階段總是報錯: Task attempt_201301151634_193666_r_000010_0 failed to report status for 603 seconds 這是由於執行合併索引操

原创 vim自動更新ctags與taglist

vim的ctags和taglist在默認情況下是不進行自動更新的,這對於編寫代碼是非常不方便的,好在vim的腳本還是很強大的,於是在vimrc中添加如下函數: function! UpdateCtags() let curd

原创 結構風險最小化(SRM)

基於統計學習理論的支持向量機算法研究 1   理論背景 基於數據的機器學習是現代智能技術中的重要方面,研究從觀測數據(樣本)出發尋找規律,利用這些規律對未來數據或無法觀測的數據進行預測。迄今爲止,關於機器學習還沒有一種被共同接受的理論框

原创 vim 根據不同目錄設置不同的vimrc

一、背景 目錄/home/user下有.vimrc目錄 /home/user/dir1有.vimrc1目錄 /home/user/dir2有.vimrc2 二、期望目標: 當在/home/user/dir1下面打開vim時,自動調用

原创 Hadoop Streaming

Hadoop Streaming Hadoop Streaming Hadoop streaming是Hadoop的一個工具, 它幫助用戶創建和運行一類特殊的map/reduce作業, 這些特殊的map/reduce作業是由一些可

原创 利用awk自身變量NR和FNR來處理多個文件

NR:表示awk開始執行程序後所讀取的數據行數。 FNR:awk當前讀取的記錄數,其變量值小於等於NR(比如當讀取第二個文件時,FNR是從0開始重新計數,而NR不會)。 NR==FNR:用於在讀取兩個或兩個以上的文件時,判斷是不是在

原创 Vim簡明教程:基本可視模式

Vim簡明教程:基本可視模式 可視模式讓你可以選擇文件的一部分內容,以便作比如刪除,複製等工作。 進入可視模式 v 用v命令進入可視模式。當光標移動時,就能看到有一些文本被高亮顯示了,它們就是被選中的內容。 三種可視模式 v