001 - 瞭解數據統計和基礎

今天是我加入Udacity課程的第一天,我會堅持學習,寫筆記。話不多說,開始!

一、數據分析初探

 

LESSON 1

瞭解數據統計和基礎

 

數據(英語:data),是指未經過處理的原始記錄。一般而言,數據缺乏組織及分類,無法明確的表達事物代表的意義,它可能是一堆的雜誌、一大疊的報紙、數種的開會記錄或是整本病人的病歷紀錄。數據描述事物的符號記錄,是可定義爲意義的實體,涉及事物的存在形式。是關於事件之一組離散且客觀的事實描述,是構成消息和知識的原始材料。
——摘自《維基百科》

數據類型

首先,我們將介紹兩種數據類型:數值數據和分類數據。
數值數據 採用允許我們執行數學運算(例如計算狗的數量)的數值。
分類數據 用於標記一個羣體或一組條目(例如狗的品種 —— 牧羊犬、拉布拉多、貴賓犬等)。
 

給數據分類練習1

請確定下面的數據類型爲數值還是分類?

變量 數據類型
郵政編碼
年齡
收入
婚姻狀況(單身、已婚、離婚等)
身高

給數據分類練習2

變量 數據類型
字母成績等級(A+、A、A-、B+、B、B-…)
上班通勤距離
調查評分(差、好、很好)
溫度
平均速度

 

分類定序與分類定類

我們可以進一步將 分類數據 分爲兩類: 定序與定類。

分類定序 數據有排名順序(例如與狗的互動從 很差 到 很好 排序)。

分類定類 數據沒有排序或排名(如狗的品種)。

 

連續與離散數據

我們可以將 數值數據 視爲連續或離散的。

連續數據可以分爲更小的單位,並且仍然存在更小的單位。一個例子就是狗的年齡 - 我們可以以年、月、日、小時、秒爲單位測量年齡,但是仍然存在可以與年齡關聯的更小單位。

離散數據僅採用可數值。我們互動的狗的數量就是離散數據類型的一個例子。

Alt
時間顯然是連續數據,時間可以無線小地分割
 

概括

下表總結了我們的數據類型。
這裏有個圖片!

再次梳理一下

數值與分類
其中一些可能有點棘手 —— 雖然郵政編碼是一個數字,但它們並非數值變量。如果我們將兩個郵政編碼加在一起,並不會從得到的新值中獲得任何有用的信息。因此,這是一個分類變量。

身高年齡、書中的頁數和年收入採用的值我們可以進行加、減和執行其他運算,來獲得有用的見解。因此,這些是數值數據。
性別、字母成績等級、早餐類型、婚姻狀態和郵政編碼可以視爲一組物品或個人的標籤。因此,它們是分類數據。

連續和離散
要區分我們的數據是連續還是離散的,要看我們是否能將數據分割成更小的單元。想想時間 —— 我們可以用年、月、日、小時、分鐘或秒來衡量一個事件,甚至是在秒級,我們知道仍然有更小的單位可以用來衡量時間。因此,我們知道此數據類型爲連續的。身高、年齡和收入都是連續數據的例子。或者,我們知道書中的頁數、我數的咖啡店外的狗數量或院子裏的樹爲離散數據。我們可不想將狗一分爲二。

定序與定類
在看定類變量時,我們發現性別、婚姻狀態、郵政編碼和早餐食品爲定類變量,這種類型的數據沒有相關的順序排列。無論你早餐吃麥片粥、吐司、雞蛋還是隻喝咖啡,它並沒有相關的排序。
相反,字母成績等級或調查評級作爲定序數據具有關聯的排序。如果獲得 A,它高於 A-。A- 的排名高於 B+,以此類推……定序變量在評級量表上很常見。在很多情況下,我們將這些定序變量變爲數字,這樣可以更容易地進行分析,稍後我們再詳細說明這一點!

個人總結

對數據分類可以讓我們更加清晰地認識數據,數據大致分爲兩類:數值與分類,兩類數據又各自分爲連續與離散,定序與定類。數值數據中的離散數據與連續數據的實際界限不那麼明確,因爲我們時長把連續的曲線經過採樣離散化,比如圖片數據,其實是一個個離散的像素單元的拼接。同樣在數學上我們有一個定理叫海涅定理,這個定理可以把離散數列的極限問題歸結爲連續函數的極限問題,所以這個定理也叫歸結原理。分類數據中定類與定序最大的區別爲,定類數據中不同數據沒有直接聯繫,而定序數據中不同數據往往有着直接的大小關係或者前後關係等等。

聲明:以上文本大部分來着Udacity網站數據分析課程的文檔。我會在學習過程中把自己對課程的見解也全都寫在筆記中,如果你希望獲得系統的數據分析學習,建議去官網報名。(狗頭)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章