原创 Youtube-利用用戶的評分行爲的推薦(有別於經典的協同過濾算法)

Youtube-利用用戶的評分行爲的推薦(有別於經典的協同過濾算法)   背景: Youtube的一些背景 (1)2012時候:485000000個視頻,大數據 (2)每分鐘上傳48小時的視頻 (3)每天上傳8年的內容 總而言之:大用戶量

原创 一篇關於youtube推薦算法的分享-基於用戶行爲的視頻推薦

本文的前提: (1)基於用戶的的行爲進行推薦 (2)本文只關注註冊用戶,只對註冊用戶進行推薦 (3)數據量級:Youtube每天 百萬級別的視頻 ,百萬級別的用戶,總的播放數量超過10億 挑戰: (1)用戶上載的視頻經常沒有元數據或元

原创 Hadoop中Mapper類的setup()函數在什麼地方調用

  Hadoop中Mapper類的setup()函數在什麼地方調用 分類: hadoop 裝載自:http://blog.csdn.net/witsmakemen/article/details/8445133 經過跟蹤hado

原创 輕鬆搞定面試中的二叉樹題目

轉載自:http://blog.csdn.net/walkinginthewind/article/details/7518888 樹是一種比較重要的數據結構,尤其是二叉樹。二叉樹是一種特殊的樹,在二叉樹中每個節點最多有兩個子節點,

原创 Python解釋執行原理

Python解釋執行原理 裝載自:http://l62s.iteye.com/blog/1481421       這裏的解釋執行是相對於編譯執行而言的。我們都知道,使用C/C++之類的編譯性語言編寫的程序,是需要從源文件轉換成計算機使

原创 標記-清除算法

轉載自:http://jianshu.io/p/b0f5d21fe031 前言 垃圾自動回收機制的出現使編程更加的簡單,使得我們不需要再去考慮內存分配和釋放的問題,而是更加的專注在我們產品功能的實現上。但是我們還是需要花時間去了解

原创 Java 動態代理

最近在研究hadoop源碼,用到了java動態代理,所以總結一下。 (1)設計模式之代理模式(proxy) 發明代理模式的主要動機是:爲目標對象提供訪問控制。 需要這種控制的理由有多種比如:1.要訪問的對象在遠程的機器上(遠程代理 rem

原创 雲計算的概念

雲計算:商業計算模型,把計算任務分佈在大量計算機構成的資源池上,使各種應用能夠根據需要(按需服務)獲取計算能力、存儲空間、軟件服務

原创 Redis入門篇

轉載自:http://blog.csdn.net/freebird_lb/article/details/7733970 一、Redis簡介: Redis(http://redis.io)是一款開源的、高性能的鍵-值存儲(key-valu

原创 java中String、StringBuffer和StringBuilder的區別

String 、StringBuffer和StringBulider的區別 (1)執行速度:StringBulider>StringBuffer>String (2)String是字符串常量(不可改變對象),StringBuffer和S

原创 Java序列化的機制和原理

轉載:http://developer.51cto.com/art/200908/147650.htm Java序列化的機制和原理 本文講解了Java序列化的機制和原理。從文中你可以瞭解如何序列化一個對象,什麼時候需要序列化以及

原创 Effective Java - 第46條:for-each循環優先於傳統的for循環

for-each循環和傳統的for循環相比的優點:1.簡潔性,2.預防bug的優勢,3.無性能損失。因此能夠用for-each的儘量用for-each,不要用for循環。collectios和arrays都能使用for-each。只要事先

原创 Mahout中基於Item的協同過濾之pairwiseSimilarity

/** * pairwiseSimilarity作用爲計算item之間的相似度 * 數據輸入格式爲(userID, VectorWritable<itemId,preference>) * 數據輸出格式爲(itemM

原创 Mahout基於item的協同過濾之asMatrix

/** * Job asMatrix * 輸出:itemA, <itemO, similarity> 格式的向量 * 完成的功能: * 1.對每個item求topN相似的wupin * 2.計算下三角矩陣

原创 Effective Java - 第45條:將局部變量的作用域最小化

將局部變量的作用域最小化的好處:可以提高代碼的可讀性和可維護性,降低出錯的可能性------如果在實際作用域之外可以訪問到局部變量,那麼1.對於閱讀代碼的人來說會增加閱讀的困惑性,2.修改代碼的時候可以少檢查一些代碼,節省時間,3.同時也