今天是我加入Udacity課程的第一天,我會堅持學習,寫筆記。話不多說,開始!
一、數據分析初探
LESSON 1
瞭解數據統計和基礎
數據(英語:data),是指未經過處理的原始記錄。一般而言,數據缺乏組織及分類,無法明確的表達事物代表的意義,它可能是一堆的雜誌、一大疊的報紙、數種的開會記錄或是整本病人的病歷紀錄。數據描述事物的符號記錄,是可定義爲意義的實體,涉及事物的存在形式。是關於事件之一組離散且客觀的事實描述,是構成消息和知識的原始材料。
——摘自《維基百科》
數據類型
首先,我們將介紹兩種數據類型:數值數據和分類數據。
數值數據 採用允許我們執行數學運算(例如計算狗的數量)的數值。
分類數據 用於標記一個羣體或一組條目(例如狗的品種 —— 牧羊犬、拉布拉多、貴賓犬等)。
給數據分類練習1
請確定下面的數據類型爲數值還是分類?
變量 | 數據類型 |
---|---|
郵政編碼 | |
年齡 | |
收入 | |
婚姻狀況(單身、已婚、離婚等) | |
身高 |
給數據分類練習2
變量 | 數據類型 |
---|---|
字母成績等級(A+、A、A-、B+、B、B-…) | |
上班通勤距離 | |
調查評分(差、好、很好) | |
溫度 | |
平均速度 |
分類定序與分類定類
我們可以進一步將 分類數據 分爲兩類: 定序與定類。
分類定序 數據有排名順序(例如與狗的互動從 很差 到 很好 排序)。
分類定類 數據沒有排序或排名(如狗的品種)。
連續與離散數據
我們可以將 數值數據 視爲連續或離散的。
連續數據可以分爲更小的單位,並且仍然存在更小的單位。一個例子就是狗的年齡 - 我們可以以年、月、日、小時、秒爲單位測量年齡,但是仍然存在可以與年齡關聯的更小單位。
離散數據僅採用可數值。我們互動的狗的數量就是離散數據類型的一個例子。
時間顯然是連續數據,時間可以無線小地分割
概括
下表總結了我們的數據類型。
再次梳理一下
數值與分類
其中一些可能有點棘手 —— 雖然郵政編碼是一個數字,但它們並非數值變量。如果我們將兩個郵政編碼加在一起,並不會從得到的新值中獲得任何有用的信息。因此,這是一個分類變量。
身高、年齡、書中的頁數和年收入採用的值我們可以進行加、減和執行其他運算,來獲得有用的見解。因此,這些是數值數據。
性別、字母成績等級、早餐類型、婚姻狀態和郵政編碼可以視爲一組物品或個人的標籤。因此,它們是分類數據。
連續和離散
要區分我們的數據是連續還是離散的,要看我們是否能將數據分割成更小的單元。想想時間 —— 我們可以用年、月、日、小時、分鐘或秒來衡量一個事件,甚至是在秒級,我們知道仍然有更小的單位可以用來衡量時間。因此,我們知道此數據類型爲連續的。身高、年齡和收入都是連續數據的例子。或者,我們知道書中的頁數、我數的咖啡店外的狗數量或院子裏的樹爲離散數據。我們可不想將狗一分爲二。
定序與定類
在看定類變量時,我們發現性別、婚姻狀態、郵政編碼和早餐食品爲定類變量,這種類型的數據沒有相關的順序排列。無論你早餐吃麥片粥、吐司、雞蛋還是隻喝咖啡,它並沒有相關的排序。
相反,字母成績等級或調查評級作爲定序數據具有關聯的排序。如果獲得 A,它高於 A-。A- 的排名高於 B+,以此類推……定序變量在評級量表上很常見。在很多情況下,我們將這些定序變量變爲數字,這樣可以更容易地進行分析,稍後我們再詳細說明這一點!
個人總結
對數據分類可以讓我們更加清晰地認識數據,數據大致分爲兩類:數值與分類,兩類數據又各自分爲連續與離散,定序與定類。數值數據中的離散數據與連續數據的實際界限不那麼明確,因爲我們時長把連續的曲線經過採樣離散化,比如圖片數據,其實是一個個離散的像素單元的拼接。同樣在數學上我們有一個定理叫海涅定理,這個定理可以把離散數列的極限問題歸結爲連續函數的極限問題,所以這個定理也叫歸結原理。分類數據中定類與定序最大的區別爲,定類數據中不同數據沒有直接聯繫,而定序數據中不同數據往往有着直接的大小關係或者前後關係等等。
聲明:以上文本大部分來着Udacity網站數據分析課程的文檔。我會在學習過程中把自己對課程的見解也全都寫在筆記中,如果你希望獲得系統的數據分析學習,建議去官網報名。(狗頭)