原创 機器學習算法複習-譜聚類

來自http://www.cnblogs.com/wentingtu/archive/2011/12/22/2297426.html 如果說 K-means 和 GMM 這些聚類的方法是古代流行的算法的話,那麼這次要講的 Spect

原创 Theano權重子集更新

      新入門Theano,官方文檔最後一節講到Theano中部分權重(權重子集)更新問題“How to update a subset of weights?”,按照教程自己寫了一個實例,但是f = theano.funct

原创 深度學習遷移模型BERT詳解

2018年google AI組發表的一篇文章BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding在多個自然語言處理問題上

原创 推薦系統筆記二、矩陣分解協同過濾

一、概述: 矩陣分解模型是把用戶偏好和item屬性投影到同一個隱因子空間(latent factor space),以用戶偏好和item屬性的匹配程度來預測評分。通常推薦系統可以用於模型訓練的信息主要有用戶的顯式反饋、隱式反饋和

原创 推薦系統筆記一、基於近鄰的推薦系統(基礎篇)

Recommender Systems Handbook 第一版(2008年)是推薦系統方向入門的經典。7年後,第二版(2015年)終於誕生了,加入了這幾年推薦系統領域的最新技術,又是state-of-the-art了吧,開始讀

原创 java正則表達式總結

        從JDK1.4開始,java提供了正則表達式API接口。正則表達式接口函數位於java.util.regex包中。正則表達式主要用於pattern的匹配,基於pattern匹配,可以完成字符串查找、字符串替換、字符串分割

原创 區分bootstrap、bagging、boosting和adaboost

前言: bootstrap、bagging、boosting和adaboost是機器學習中幾種常用的重採樣方法。其中bootstrap重採樣方法主要用於統計量的估計,bagging、boosting 和 adaboost方法則主

原创 Theano scan函數之生成斐波那契數列的兩種方法

一、Theano的侷限性 Theano代碼編寫比較靈活,但是也存在一些侷限性: 1、while和if循環必須通過theano.scan()操作實現,從而循環的主體會受到一些限制; 2、不支持goto和遞歸。 所以對於某些矩陣

原创 Spark把RDD數據保存到一個單個文件中

Spark是當前最流行的分佈式數據處理框架之一,相比於Hadoop,Spark在數據的處理方面更加靈活方便。然而在最近的使用中遇到了一點小麻煩:Spark保存文件的的函數(如saveAsTextFile)在保存數據時都需要新建一

原创 Logistic Regression詳解

Logistic Regression(簡稱LR)作爲一個經典的機器學習分類算法,由於其出衆的分類效果和簡單的模型,在學術界和工業界都佔有重要的地位。此外,Logistic Regression構造目標函數的思路也很值得學習和借

原创 推薦系統筆記三、基於近鄰的推薦系統(進階篇)

一、概述: 基於近鄰的推薦算法在推薦系統中佔有重要的地位,是學術界的一個重點研究方向,在產業界也得到了廣泛的應用。基於近鄰的推薦算法大致可以分爲user-based和item-based兩類,關於近鄰推薦算法的基礎性介紹,請參見

原创 從LeNet-5看卷積神經網絡CNNs

一、概述: 自從2010年Hinton大神團隊使用深度學習(Deep Learning)算法在 ImageNet 比賽中獲得冠軍之後,深度學習算法的觸角在計算機視覺、語音識別、自然語言處理等領域不斷延伸,並且在這些領域都取得了極

原创 推薦系統筆記四、基於內容的推薦系統

一、概述: 基於內容的推薦系統(CBRSs)從item和用戶的內容描述中提取出item的內容特徵和用戶偏好,根據用戶對item的評價歷史和item之間的語義(內容)相似度進行推薦。     基於內容推薦系統的高層次結構如圖所

原创 Spark Reduce TypeError: 'int' object has no attribute '__getitem__

    在使用Reduce這個函數需要特別注意的一點是,reduce必須要求輸入與輸出是相同類型,例如: >>> rddx = sc.parallelize([('a',1),('b',2),('c',5)]) >>> rdd

原创 在分佈式系統中使用ffmpeg -- python

ffmpeg是常用的用來處理視頻的工具,它的功能非常強大,包含了豐富的音視頻處理接口,如視頻格式轉換,音視頻分離、添加水印等。出於效率上的考慮,ffmpeg是基於c編寫的,所以在使用之前通常需要編譯安裝。想要在分佈式集羣上面用ffm