原创 算法學習一之逆波蘭表達式

1.逆波蘭表達式也稱後綴表達式,即操作符在操作數之後。 2.如何將數字表達式轉換爲逆波蘭表達式 (1)算法如下:         設置兩個棧,一個操作符棧,一個結果數組。操作符棧棧頂元素初始化爲'\0'。運算符的優先級定爲+-小於*/。

原创 01_05 數據獲取和清理概覽

1、數據獲取和清理的內容 (1)髒數據和乾淨數據 (2)下載文檔 (3)讀取數據(excel,xml,json,mysql,hdf5,web....) (4)合併數據 (5)重新構造數據 (6)彙總數據 (7)尋找和替換 (8)數據源

原创 01_01 工具概覽

1、數據科學家幹什麼? (1)定義問題。(2)定義理想的數據集。(3)決定目標數據。(4)獲取數據。(5)清洗數據。(6)數據分析。(7)分析預測/模型化。(8)解釋結果。(9)驗證結果。 (10)綜合陳述結果。(11)編寫可重複使用的代

原创 Lesson 1 學習問題

    這是加州理工學院的《機器學習與數據挖掘》的公開課的第一講:學習問題。整節課從下面五個方面進行,(1)機器學習的例子,(2)學習的構成,(3)一個簡單的模型, (4)學習的類型,(5)一道思考題。 1、機器學習的例子:預測觀衆會如

原创 01-02 數據科學家如何獲取幫助

1、問問題 (1)上課問老師問題 (2)在mooc上上傳問題到信息版 2、通常最快速獲取到答案的途徑是你自己找到答案 (1)首先自己回答自己的問題這很重要 (2)如果你的問題可以在幫助文檔或者google hit上搜索到,那你應該首先讀

原创 斯坦福《機器學習》Lesson1-3感想-------3、線性迴歸二

從上一篇可知,在監督學習裏最重要的就是確定假想函數h(θ),即通過使得代價函數J(θ)最小,從而確定h(θ). 上一篇通過梯度下降法求得J(θ)最小,這篇我們將使用矩陣的方法來解釋。   1、普通最小二乘法 利用矩陣的方式,m個訓練集

原创 斯坦福《機器學習》Lesson8感想-------1、SMO

從上一篇文章可知支持向量(supervector)就是指的離分隔超平面最近的那些點。整個SVM最需要的步驟是訓練分類器,得到alpha,從而得到整個用於數據分類的分隔超平面。支持向量機(super vector machine,SVM)的

原创 斯坦福《機器學習》Lesson4感想-------2、廣義線性模型

在前面幾篇中分類問題和迴歸問題裏涉及到的伯努利分佈和高斯分佈都是廣義線性模型(Generative Linear Models.GLMs)的特例。下面將詳細介紹廣義線性模型。   1、指數族 我們可以將一些分佈總結到一個指數族中。指數族

原创 斯坦福《機器學習》Lesson5感想———1、成學習算法

    在前面幾課裏的學習算法的思路都是給定數據集以後,確定基於此數據集的最佳假設H函數,通過學習算法確定最佳假設H的各個參數,然後通過最佳假設函數H得出新的數據集的結果。在這一課裏介紹了一種新的思路,它的核心思想是直接計算各種假設的最高

原创 RDD

1.RDD的定義     RDD(Resilient Distributed Dataset) ,分佈式彈性數據集,是Spark上的一個核心抽象表示用於並行計算的,不可修改的,對數據集合進行分片的數據結構。任何數據在Spark中都被表示爲

原创 利用UIActionsheet完成上傳頭像

     UIActionsheet的定義和聲明我就不寫了,主要寫功能函數。 此功能函數是主要是從相冊中選取圖片還是直接調用照相機。 func actionSheet(actionSheet: IBActionSheet!, click

原创 斯坦福《機器學習》Lesson5感想———2、樸素貝葉斯算法

     樸素貝葉斯算法與上篇中寫到到生成學習算法的思想是一致的。它不需要像線性迴歸等算法一樣去擬合各種假設的可能,只需要計算各種假設的概率,然後選擇概率最高的那種假設分類類別。其中還添入了一個貝葉斯假定:在給定目標值y時屬性值x之間相互

原创 斯坦福《機器學習》Lesson6感想———1、函數間隔和幾何間隔

    這一課主要是從如何判斷一個機器學習分類算法裏擬合的參數是最佳參數引出函數間隔和幾何間隔的定義。   1、函數間隔     假設假想函數,,那麼可以知道y=1;反之則y=0 。所以當,我們可以很確定的認爲y=1;當,可以很確定地認

原创 斯坦福《機器學習》Lesson1-3感想-------2、線性迴歸

         監督學習的主要任務是預測目標變量的值,而且一般已經已知一些目標變量y。所以通常假設函數會根據訓練集(x,y)設爲: 基於已知的訓練集,我們應該如何確定θ的值。一般我們認爲h(x)與y值的越接近,θ的值越好。因此定義了代

原创 斯坦福《機器學習》Lesson1-3感想-------1、機器學習的基本定義

   機器學習就是把無序的數據轉換成有用的信息。機器學習一般包括訓練集、學習算法、目標變量、假設函數。目標變量是機器學習的預測結果。如圖1所示,在訓練集上結合目標變量,利用學習算法不斷學習,使得假設函數h能夠解釋(x,y)之間的關係。機器