原创 MapReduce再學習:資源管理框架YARN

在前面寫到的三篇博客中,HDFS概述 和 MapReduce簡介寫的都是hadoop1.0的情況,針對1.0版本的各種不足,2.0都有相應的改動, HDFS再學習:HA和Federation機制寫的是存儲系統HDFS上的改動。針對

原创 word2vec查詢詞向量時報錯:'utf-8' codec cann't decode bytes in position 96-07:unexpected end of data

加載word2vec模型時報錯: model_path = "model/Hanlp_cut_news.bin" w2v_dict = word2vec.load(model_path) print(w2v

原创 Aprior算法和FP Group算法

轉自 http://blog.sina.com.cn/s/articlelist_1761593252_1_1.html 分別詳細介紹了Aprior算法和FP Group算法。他們的區別就是Apriori算法多次掃描交易數據庫,

原创 最大回撤率 和 移動數組零元素到末尾

最大回撤率 將數組中零元素移動到末尾,要求算法時間複雜度爲O(n),空間複雜度爲O(1) 最大回撤率: 在選定週期內任一歷史時點往後推,產品淨值走到最低點時的收益率回撤幅度的最大值。最大回撤率用來描述買入產品後可能出現的最糟糕情

原创 Spark Mllib 迴歸學習筆記二(java):保序迴歸

spark2.0.0 保序迴歸(isotonic regression) 保序回歸屬於迴歸算法,對於一個有限的實數集合Y表示觀測相應,X集合表示未知的相應值,進行擬合找到一個最小化函數: x是排序的,w是大於0的權重,最終函數

原创 網絡編程筆記一:基礎概念及相關java類入門

一、網絡:將不同地區的計算機連接到一起。由地區我們即可劃分“局域網”“城域網”“互聯網” 二、地址:ip地址,確定網絡上一個絕對地址(相當於一個房子的確切地址幾號街幾號牌) 三、端口號:區分計算機軟件的(相當於房子的門牌號)

原创 octave向量矩陣基本操作命令

筆記總結自coursera的機器學習課程~ 懶得中英文切換,就用我幼稚有限的英語寫啦,反正~嗯哼嗯哼,這麼簡單的英語,以後我用到也一定看得懂 (- ^ -) 命令如下: At first, we need to know,

原创 從兩元線性迴歸到多元:數據預處理的重要性

在瞭解了一下梯度下降的原理之後,如下有一個程序實現了兩元的線性迴歸。按理說,那麼要寫多元線性迴歸,就是幾維都可以處理的,應該只需要改一部分代碼,多一個循環取值就可以了。但卻出現了損失值越來越大的情況。折騰了很久,後來發現,加一步數

原创 初識python之簡單方便及一些注意事項

妹子之前學的是java,這個暑假開始接觸python。新手入門也沒什麼太多的經驗與認識,不過還是被python的簡單方便所震驚,在它這樣自由灑脫的風格下做事,再回到一眼一板,一步一個腳印的java怕是會有些不習慣呢~應師兄的建議,像爲自己

原创 對python的閉包,裝飾器的理解

先來看一段簡單的代碼 def add(): a = 2 b = 5 def func(c): return a*c+b return func

原创 網絡編程筆記二:一個java爬蟲的實現(靜態頁面)

這一份博客直接貼代碼了,因爲:),作爲平時的學習我習慣寫完代碼後反觀一次,做比較詳細的註釋。 在這裏BB一句,有時候我們學點東西之前總會正兒八經正襟危坐地問啊問啊“怎麼入門怎麼入門怎麼入門呢”。個人有點小感慨:邊學邊做就是很好的開

原创 用java構建neo4j數據庫

距離上一篇neo4j的博客有好長一段時間了哈,真是懶啊嗷嗷嗷…… 咳咳,言歸正傳,學習如何用java創建一個neo4j數據庫,首先!讓我們一起來定個小目標(> ~ <):構建一個長這樣的圖: 有一箇中心結點,它有一些屬性,其

原创 java求無重複集合所有子集

在lintcode上遇到一道題,如下: 給定一個含不同整數的集合,返回其所有的子集 注意事項: 子集中的元素排列必須是非降序的,解集必須不包含重複的子集。 解答如下 import java.util.Arrays; im

原创 Spark Mllib 迴歸學習筆記三(java):決策樹

決策樹 決策樹模型,適用於分類、迴歸。 簡單地理解決策樹呢,就是通過不斷地設置新的條件標準對當前的數據進行劃分,最後以實現把原始的雜亂的所有數據分類。 就像下面這個圖,如果輸入是一大堆追求一個妹子的漢子,妹子內心裏有個篩子,最後

原创 用highcharts構造散點圖

由於項目的需要,我們想要了解觀衆對一部電影的評分是否與時間存在一定的關係,以此判斷時間能否成爲我們探討一部電影口碑的要素,我們是否有必要關注時間。於是我接觸到了highcharts,一個畫圖工具。雖然只是很單純地接觸,很簡單地應用