原创 利用hadoop二次排序進行用戶行爲分析

1、應用場景說明 在對用戶行爲進行分析之前,需要對用戶行爲按session進行關聯,或記錄每個用戶的訪問某個頁面的時間。 原始日誌: 用戶   \t          訪問時間         \t              訪問頁面 1

原创 使用MapReduce進行排序

 之前在工作中使用到過MapReduce的排序,當時對於這個平臺的理解還比較淺顯,選擇的是一個最爲簡單的方式,就是隻用一個Recude來做。因爲Map之後到Reduce階段,爲了Merge的方便,MapReduce的實現會自己依據key

原创 Hadoop入門之HDFS與MapReduce

Hadoop的核心就是HDFS與MapReduce HDFS(Hadoop Distributed File System)由GFS(Google File System)演變而來,用於管理數據存儲。 MapReduce 是一個分佈式

原创 linux下python安裝 nose lapack atlas numpy scipy sklearn

自己走了很多彎路,總結下: 各個安裝包版本: scipy-0.16.1 numpy-1.9.2 nose-1.3.7 lapack-3.5.0 atlas-3.10.2 sklearn-0.16.1 安裝步驟: 1、安裝nose 這個安裝

原创 Mapreduce-Partition分析

Partition所處的位置 Partition位置 Partition主要作用就是將map的結果發送到相應的reduce。這就對partition有兩個要求: 1)均衡負載,儘量的將工作均勻的分配給不同的reduce。

原创 ssh命令使用技巧

1、查看SSH客戶端版本 有的時候需要確認一下SSH客戶端及其相應的版本號。使用ssh -V命令可以得到版本號。需要注意的是,Linux一般自帶的是OpenSSH: 下面的例子即表明該系統正在使用OpenSSH: $ ssh -V 

原创 推薦引擎初探

隨着 Web 技術的發展,使得內容的創建和分享變得越來越容易。每天都有大量的圖片、博客、視頻發佈到網上。信息的極度爆炸使得人們找到他們需要的信息將變得越來越難。傳統的搜索技術是一個相對簡單的幫助人們找到信息的工具,也廣泛的被人們所使用,

原创 SVD奇異值分解

SVD分解 SVD分解是LSA的數學基礎,本文是我的LSA學習筆記的一部分,之所以單獨拿出來,是因爲SVD可以說是LSA的基礎,要理解LSA必須瞭解SVD,因此將LSA筆記的SVD一節單獨作爲一篇文章。本節討論SVD分解相關數學問題,

原创 SVD分解的理解

SVD分解(奇異值分解),本應是本科生就掌握的方法,然而卻經常被忽視。實際上,SVD分解不但很直觀,而且極其有用。SVD分解提供了一種方法將一個矩陣拆分成簡單的,並且有意義的幾塊。它的幾何解釋可以看做將一個空間進行旋轉,尺度拉伸,再旋轉

原创 基於用戶行爲分析建立用戶偏好模型

基於用戶行爲分析建立用戶偏好模型 2013-09-08 18:23  2736 轉載:http://zisong.me/post/ji-zhu/ji-yu-yong-hu-xing-wei-fen-xi-jian-li-yong-h

原创 ICTCLAS錯誤問題

1、  測試的時候報錯:  Exception in thread "main" java.lang.UnsatisfiedLinkError: noICTCLAS50 in java.library.path  這個簡單,沒找到ICTC

原创 linux 的 scp 命令

1.scp命令簡介 不同的Linux之間copy文件常用有3種方法: 第一種就是ftp,也就是其中一臺Linux安裝ftp Server,這樣可以另外一臺使用ftp的client程序來進行文件的copy。 第二種方法就是採用samb

原创 利用採樣器實現mapreduce任務輸出全排序

 採樣器是hadoop內自帶的一個可以對目標文件部分數據進行提取的工具類,以方便我們對這些採樣的數據做一些參考或者處理。hadoop提供了多種採樣器供我們使用,以滿足不同的需求。另外,採樣器不同於普通mapreduce操作。它是直接在客戶

原创 【Spark Java API】Transformation(1)—mapPartitions、mapPartitionsWithIndex

mapPartitions 官方文檔描述: Return a new RDD by applying a function to each partition of this RDD. mapPartitions函數會對每個分

原创 【Spark Java API】Transformation(13)—zipWithIndex、zipWithUniqueId

zipWithIndex 官方文檔描述: Zips this RDD with its element indices. The ordering is first based on the partition index and th