表結構數據介紹

表結構數據的介紹

對錶結構數據的理解越清晰,對錶結構數據進行處理的工具的使用就越得心應手。比如用MYSQL、SQL sever 等軟件對“大”數據進行清洗等,都會有極大的幫助!下面是落花生對錶結構數據的認識:

何爲表結構數據?

它就是數據庫結構的數據。認識它要注意以下幾點:
1.以整列數據爲基本計算單位;
2.不能在行、特定值處進行操作;
3.行稱爲“記錄”,列稱爲“字段”;
4.字段的集合稱爲表,表的集合稱爲數據庫。
另外,它還有以下特徵:
1.一個字段的數據類型是唯一的;
2.用字段名來定位字段;
3.一個表的所有字段的記錄數(行)必須相同;
4.用表名來定義表;
5.一個表必須有一個主鍵,主鍵要求爲非空不重複(主鍵是表的記錄單位,用於識別定位表中的不同行,表中的其他字段皆圍繞主鍵展開);
6.表中可以沒有值,但也要佔一行記錄,會被計算機以NULL來填充,處理時也要做空值替換;

表結構數據何以得勢?

表格結構數據最常見的就是excel一般處理的數據,能對特定單元格、行數據進行操作。導致在數據量很大的時候,處理效率會變得很慢,也容易時設備卡機(excel得表結構數據格式轉換可以江excel中的表格結構數據化爲表格結構)。那麼,表結構數據的優勢就顯而易見:
1.輕鬆容易的關聯、整合不同數據源的數據;
2.能大批量處理數據,效率非常高;
3.於不同表間建立聯繫,將不同維度的數據整合成多維度的信息精準的多維度數據模型;
4.對零散數據可以進行不同維度的彙總觀測;
5.大部分表結構數據處理工具記錄的是處理過程,下次進行處理時不需要向傳統EXCEL處理數據那樣重新操作過程。
在大數據時代背景下,表結構數據的這些優勢自然使其更能得到數據分析工作者得青睞。

表連接?

表連接就是按數據使用者的需求,用表結構數據處理工具(如mysql)對不同維度的表進行維度整合,對所需信息進行彙總觀察的基本操作。也是表結構數據的精要之處。
通常有左連接、右連接、內連接三種方式,連接的橋樑是各表的主鍵。兩表的連接最後的結果由下面三個屬性決定:
1.方向性:在SQL語句中寫在前面的是左表、後面的是右表;
2.主附關係:主表要能給出所有的數據範圍,附表不能給主表匹配上值時,計算機會以null補上,內連接沒有主附之分;
3.對應關係:關鍵字中由重複值的爲多表,無重複值的爲一表。

變量?

表結構數據中的變量指的是表中字段在不同的環境下的角色所具備的屬性。此處的劃分沒有統計學上的劃分明細,主要分爲名義型變量、有序型變量、連續型變量:
1.名義型變量:爲文本、字符,單純定義名稱用,值與值之間沒有順序關係、大小關係。如“性別”,“血型”,“類型”,“姓名”等等;
2.有序型變量:爲文本、字符,值與值之間存在大小、順序關係。如“等級”,“排名”,“職稱”等等。
3.連續型變量:爲數值,值與值之間由大小、順序關係且取值連貫。如“年齡”,“產量”,“銷售額”等等。

數據透視?

數據透視也就是對數據進行彙總觀察,也是業務數據分析師最主要的分析手段。用來將零散的數據彙總爲一般人能解讀的彙總值,彙總值由維度、度量、彙總方法構成:
1.維度:有序型或名義型變量、也叫分組依據、分爲彙總維度及篩選維度兩類
2.度量:維度彙總的對象、絕大多數情況下使用連續型變量
3.彙總規則:連接維度與度量的橋樑、有以下五種基本彙總規則:
a.求和(sum):度量值的加總;
b.求平均(average):度量值的合計值/度量值的行數;
c.最大值(max):度量值中的最大值;
d. 最小值(min):度量值中的最小值;
e.計數(count):數行數。

特別注意!!!

1.名義型通常爲文本,在數據分析中角色爲維度,可作爲主鍵;有序型變量通常爲文本或數值,在數據分析中的角色爲維度,可作爲主鍵;連續型數據爲數值,在數據分析中角色爲度量,不可作爲主鍵。
2.兩表合併後,一表出度量進行彙總時,彙總值會在多表重複項下翻倍。如果兩表是多對多的連接關係,不管哪個表出度量都會在另一個表的重複項下翻倍
3.表連接中謹記:多表出度量作主表,一表出維度作附表。

嗯~~~,上面就是落花生對錶結構數據的“小白”認知,還有很多知識點如ER圖等未做介紹,不足之處請諸君多多指教!謝謝啦!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章