大數據挖掘——認識數據

第二章 認識數據

2.1 數據對象與屬性類型

  數據集由數據對象組成,一個數據對象代表一個實體。屬性,是一個字段,表示數據對象的一個特徵。在文獻中,屬性、維、特徵和變量可以互換的使用。用來描述一個給定對象的一組屬性稱做屬性向量(特徵向量)。

2.1.1 標稱屬性

  標稱意味着“與名稱相關”,標稱屬性的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態,因此標稱屬性又被看做是分類的。

2.1.2 二元屬性

  二元屬性是一種標稱屬性,只有兩個類別或狀態:0或1,其中0通常表示屬性不出現,而1表示出現。二元屬性又稱布爾屬性。

2.1.3 序數屬性

  序數屬性是一種屬性,其可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的。例如grade(成績,A+、A、A-、B+等)

2.1.4 數值屬性

  數值屬性是定量的,即它是可度量的,用整數或實數值表示。數值屬性可以是區間標度的或比率標度的。區間標度屬性用相等的單位尺度度量。區間屬性的值有序,可以爲正、0或負。例如溫度、日曆日期。比率標度屬性是具有固有零點的數值屬性。比如高度、速度、重量、等,我們可以說一個數是另一個數的多少被。

2.1.5 離散屬性和連續屬性

  離散屬性具有有限或無限可數個值,可以用或不用整數表示。如果屬性不是離散的,則是連續的。

2.2 數據的基本統計描述

2.2.1 中心趨勢度量:均值、中位數和衆數

  均值又分爲算術平均值和加權算術平均值。均值的主要問題是對極端值很敏感(極端值對均值影響很大)。中位數是該有序集中的中間值。如果N爲奇數,中位數就是處在數據集中間的數值,如果N爲偶數,它是最中間兩個數的均值。衆數是數據集中出現次數最多的數。

2.2.2 度量數據散佈:極差、四分位數、方差、標準差和四分位數極差

  極差(range)就是一個數據集中最大值與最小值的差。分位數是取自數據分佈每隔一定間隔上的點,把數據劃分成基本上大小相等的連貫集合。給定數據分佈的第k個q分位的值x,使得小於x的數據值最多爲k/q,而大於x的數據值最多有1 - k/q,其中k是整數,使得0 < k < q。我們有q - 1個q分位數。2分位數對應中位數,4分位數有3個數據點,它們把數據分佈劃分爲4個相等的部分,使得每部分表示數據分佈的四分之一,通常它們叫做四分位數。第1個和第3個四分位數之間的距離是散佈的一種簡單度量,它給出被數據的中間一半所覆蓋的範圍。該距離稱爲四分位極差(IQR)。識別離羣點的通常規則是。挑選落在第3個四分位數之上或第1個四分數之下至少1.5 x IQR處的值。五數概括是指Min、Q1、Median(Q2)、Q3、Max。方差與標準差都是數據散佈度量,它們指出數據分佈的散佈程度。

2.2.3 數據的基本統計描述的圖形顯示

分位數圖:分位數圖是一種觀察單變量數據分佈的簡單有效方法。分位數fi = (i - 0.5)/N, i從1,2,。。。N。

分位數-分位數圖(q-q圖)、直方圖、散點圖等。

2.3 數據可視化

基於像素的可視化技術

幾何投影可視化技術

基於圖符的可視化技術 ———》 切爾諾夫臉

層次可視化技術 ————》 三維圖、樹圖

可視化複雜對象和關係 ————》 標籤雲

2.4度量數據的相似性和相異性

  相似性和相異性都稱爲鄰近性,數據矩陣(用於存放數據對象)和相異性矩陣(用於存放數據對象的相異性值)。數據矩陣或稱爲對象-屬性結構,這種數據結構用關係表的形式或n x p(n個對象 x p個屬性)矩陣存放n個數對象。相異性矩陣或稱對象-對象結構,存放兩兩之間的鄰近度,通常用一個n x n矩陣表示。

標稱屬性的鄰近性度量 d(i, j) = ( p - m)/ p,m爲匹配的數目,p是刻畫對象的屬性總數。

數值屬性的相異性:閔可夫斯基距離

序數屬性的鄰近性度量: z_{jf} =\frac{r_{if} - 1}{M_{f} - 1}

餘弦相似性:sim = \frac{x * y}{||x|| * ||y||}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章