大數據挖掘——認識數據

第二章認識數據

2.1 數據對象與屬性類型

數據集由數據對象組成，一個數據對象代表一個實體。屬性，是一個字段，表示數據對象的一個特徵。在文獻中，屬性、維、特徵和變量可以互換的使用。用來描述一個給定對象的一組屬性稱做屬性向量（特徵向量）。

2.1.1 標稱屬性

標稱意味着“與名稱相關”，標稱屬性的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態，因此標稱屬性又被看做是分類的。

2.1.2 二元屬性

二元屬性是一種標稱屬性，只有兩個類別或狀態：0或1，其中0通常表示屬性不出現，而1表示出現。二元屬性又稱布爾屬性。

2.1.3 序數屬性

序數屬性是一種屬性，其可能的值之間具有有意義的序或秩評定，但是相繼值之間的差是未知的。例如grade（成績，A+、A、A-、B+等）

2.1.4 數值屬性

數值屬性是定量的，即它是可度量的，用整數或實數值表示。數值屬性可以是區間標度的或比率標度的。區間標度屬性用相等的單位尺度度量。區間屬性的值有序，可以爲正、0或負。例如溫度、日曆日期。比率標度屬性是具有固有零點的數值屬性。比如高度、速度、重量、等，我們可以說一個數是另一個數的多少被。

2.1.5 離散屬性和連續屬性

離散屬性具有有限或無限可數個值，可以用或不用整數表示。如果屬性不是離散的，則是連續的。

2.2 數據的基本統計描述

2.2.1 中心趨勢度量：均值、中位數和衆數

均值又分爲算術平均值和加權算術平均值。均值的主要問題是對極端值很敏感（極端值對均值影響很大）。中位數是該有序集中的中間值。如果N爲奇數，中位數就是處在數據集中間的數值，如果N爲偶數，它是最中間兩個數的均值。衆數是數據集中出現次數最多的數。

2.2.2 度量數據散佈：極差、四分位數、方差、標準差和四分位數極差

極差（range）就是一個數據集中最大值與最小值的差。分位數是取自數據分佈每隔一定間隔上的點，把數據劃分成基本上大小相等的連貫集合。給定數據分佈的第k個q分位的值x，使得小於x的數據值最多爲k/q,而大於x的數據值最多有1 - k/q，其中k是整數，使得0 < k < q。我們有q - 1個q分位數。2分位數對應中位數，4分位數有3個數據點，它們把數據分佈劃分爲4個相等的部分，使得每部分表示數據分佈的四分之一，通常它們叫做四分位數。第1個和第3個四分位數之間的距離是散佈的一種簡單度量，它給出被數據的中間一半所覆蓋的範圍。該距離稱爲四分位極差(IQR)。識別離羣點的通常規則是。挑選落在第3個四分位數之上或第1個四分數之下至少1.5 x IQR處的值。五數概括是指Min、Q1、Median(Q2)、Q3、Max。方差與標準差都是數據散佈度量，它們指出數據分佈的散佈程度。

2.2.3 數據的基本統計描述的圖形顯示

分位數圖：分位數圖是一種觀察單變量數據分佈的簡單有效方法。分位數fi = （i - 0.5）/N， i從1，2，。。。N。

分位數-分位數圖（q-q圖）、直方圖、散點圖等。

2.3 數據可視化

基於像素的可視化技術

幾何投影可視化技術

基於圖符的可視化技術 ———》切爾諾夫臉

層次可視化技術 ————》三維圖、樹圖

可視化複雜對象和關係 ————》標籤雲

2.4度量數據的相似性和相異性

相似性和相異性都稱爲鄰近性，數據矩陣（用於存放數據對象）和相異性矩陣（用於存放數據對象的相異性值）。數據矩陣或稱爲對象-屬性結構，這種數據結構用關係表的形式或n x p（n個對象 x p個屬性）矩陣存放n個數對象。相異性矩陣或稱對象-對象結構，存放兩兩之間的鄰近度，通常用一個n x n矩陣表示。

標稱屬性的鄰近性度量 d(i, j) = ( p - m)/ p，m爲匹配的數目，p是刻畫對象的屬性總數。

數值屬性的相異性：閔可夫斯基距離

序數屬性的鄰近性度量： z_{jf} =\frac{r_{if} - 1}{M_{f} - 1}

餘弦相似性：sim = \frac{x * y}{||x|| * ||y||}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據挖掘——認識數據

第二章認識數據

2.1 數據對象與屬性類型

2.1.1 標稱屬性

2.1.2 二元屬性

2.1.3 序數屬性

2.1.4 數值屬性

2.1.5 離散屬性和連續屬性

2.2 數據的基本統計描述

2.2.1 中心趨勢度量：均值、中位數和衆數

2.2.2 度量數據散佈：極差、四分位數、方差、標準差和四分位數極差

2.2.3 數據的基本統計描述的圖形顯示

分位數圖：分位數圖是一種觀察單變量數據分佈的簡單有效方法。分位數fi = （i - 0.5）/N， i從1，2，。。。N。

分位數-分位數圖（q-q圖）、直方圖、散點圖等。

2.3 數據可視化

基於像素的可視化技術

幾何投影可視化技術

基於圖符的可視化技術 ———》切爾諾夫臉

層次可視化技術 ————》三維圖、樹圖

可視化複雜對象和關係 ————》標籤雲

2.4度量數據的相似性和相異性

標稱屬性的鄰近性度量 d(i, j) = ( p - m)/ p，m爲匹配的數目，p是刻畫對象的屬性總數。

數值屬性的相異性：閔可夫斯基距離

序數屬性的鄰近性度量： z_{jf} =\frac{r_{if} - 1}{M_{f} - 1}

餘弦相似性：sim = \frac{x * y}{||x|| * ||y||}

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

通過f-string編寫簡潔高效的Python格式化輸出代碼

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

Git服務器搭建（gogs服務）

面向對象的補充（slots、tracemalloc、運算符重載中的反向方法）

大數據挖掘——數據預處理

大數據挖掘——認識數據

集成學習：隨機森林和GBDT

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

大數據挖掘——認識數據

第二章 認識數據

2.1 數據對象與屬性類型

2.1.1 標稱屬性

2.1.2 二元屬性

2.1.3 序數屬性

2.1.4 數值屬性

2.1.5 離散屬性和連續屬性

2.2 數據的基本統計描述

2.2.1 中心趨勢度量：均值、中位數和衆數

2.2.2 度量數據散佈：極差、四分位數、方差、標準差和四分位數極差

2.2.3 數據的基本統計描述的圖形顯示

分位數圖：分位數圖是一種觀察單變量數據分佈的簡單有效方法。分位數fi = （i - 0.5）/N， i從1，2，。。。N。

分位數-分位數圖（q-q圖）、直方圖、散點圖等。

2.3 數據可視化

基於像素的可視化技術

幾何投影可視化技術

基於圖符的可視化技術 ———》 切爾諾夫臉

層次可視化技術 ————》 三維圖、樹圖

可視化複雜對象和關係 ————》 標籤雲

2.4度量數據的相似性和相異性

標稱屬性的鄰近性度量 d(i, j) = ( p - m)/ p，m爲匹配的數目，p是刻畫對象的屬性總數。

數值屬性的相異性：閔可夫斯基距離

序數屬性的鄰近性度量： z_{jf} =\frac{r_{if} - 1}{M_{f} - 1}

餘弦相似性：sim = \frac{x * y}{||x|| * ||y||}

第二章認識數據

基於圖符的可視化技術 ———》切爾諾夫臉

層次可視化技術 ————》三維圖、樹圖

可視化複雜對象和關係 ————》標籤雲