數據庫系統原理第八章

第八章 數據管理技術的發展

**大家想一起學習交流的可以加羣,WX:MrCroods。**

第一節 數據庫技術發展概述

數據模型是數據庫系統的核心和基礎。三個發展階段:
第一代的網狀、層次數據庫系統,第二代的關係數據庫系統,以及新一代的數據庫系統。
一、第一代數據庫系統

第一代數據庫系統的數據模型:層次模型和網狀模型。

(1)、層次模型數據庫管理系統IMS。
(2)、DBTG所提議的方法(該方法是20世紀60年代末70年代初提出)是基於網狀結構的,是網狀模型數據庫系統。
(3)、兩類數據庫系統的共同特點:

1)、支持三級模式(外模式、模式、內模式)的體系結構。(具有轉換功能)
2)、用存取路徑來表示數據之間的聯繫。
3)、獨立的數據定義語言。
4)、導航的數據操縱語言。(過程化語言)

二、第二代數據庫系統

20世紀70年代稱爲數據庫時代。
20世紀80年代開發出的DBMS稱爲關係數據庫系統.

第二代數據庫系統的數據模型:關係數據模型。
關係模型由數據結構、關係操作和數據完整性組成
第二代數據庫系統特點如下:
模型簡單清晰、理論基礎好】數據獨立性強、數據庫語言非過程化和標準化。

三、第三代數據庫系統(簡答題

(1)、第三代數據庫系統需滿足《第三代數據庫系統宣言》的三個基本特徵:

1)、第三代數據庫系統應支持數據管理、對象管理和知識管理。
需要以支持面向對象數據模型爲主要特徵的數據庫系統。
2)、第三代數據庫系統必須保持或繼承第二代數據系統的技術。
非過程化數據存取方式和數據獨立性。
3)、第三代數據庫系統必須對其他系統開放。
開放性表現在:支持數據庫語言標準;支持標準網絡協議;具有可移植性、可連接性、可擴展性和互操性。

第二節 數據倉庫與數據挖掘

一、從數據庫到數據倉庫

兩類不同的數據出來工作:一類是操作型處理,也稱爲聯機事務處理(OLTP);
另一類是分析型處理,也稱爲聯機分析處理(OLAP)。

(1)、數據倉庫概念:數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合、用以支持管理決策的過程。(一種面向分析的數據存儲方案
(2)、數據倉庫的特徵:面向主題、集成性、數據的非易失性、數據的時變性。
(3)、數據倉庫的重要概念:粒度、分割、維。

1)、粒度:數據倉庫的數據單位中保存數據的細化或綜合程度的級別。
細化程度越高、粒度級就越小。
2)、分割:將數據分散到各自的物理單元中,便於分別處理,以提高數據處理的效率。
數據分割後的單元稱爲切片。
3)、維:特定角度,是考慮問題時的一類屬性。(最常用的是時間維

(4)、數據倉庫也稱爲企業倉庫,數據集市體系結構的數據倉庫概念,其基本思想是自下而上的數據倉庫的開發方法;
(5)、數據集市結構的數據倉庫,又稱爲主題結構數據倉庫,按照主題進行構思形成的數據倉庫。
(6)、數據集市分爲獨立的數據集市、從屬的數據集市、混合數據集市。

二、數據挖掘技術

數據挖掘是從大量的,不完全的,有噪聲的、模糊的、隨機的應用數據中發現並提取潛在有用的信息和知識的一種技術,也稱爲數據庫中的知識發現。
OLAP是數據彙總/聚集工具。其目標是簡化和支持交互式數據分析,而數據挖掘的目標是儘可能自動處理。

在數據庫技術中,數據處理基於查詢,可發現有用的信息。

(1)、數據挖掘的具有的功能

1)、概念描述:通過數據挖掘,可總結某些數據特徵。
2)、關聯分析:目的是找出數據庫中隱藏的關聯網。
關聯分爲簡單關聯、時序關聯、因果關聯。
3)、分類與預測:分類是找出一個類別的概念描述,代表了這類數據的整體信息,即該類的內涵描述,並用此來構造模型,一般用規則或決策樹模式表示。
常見的分類模型及算法有決策樹模型、神經網絡模型、線性迴歸模型。
4)、聚類:是把數據按照相似性歸納成若干類別,其目的是使屬於同一類別的對象之間的距離儘可能小,而不同類別的對象之間的距離儘可能大。(常用方法:K-Means、GMM)
5)、孤立點檢測:孤立點是指數據中與整體表現行爲不一致的數據集合
6)、趨勢和演變分析:通過數據挖掘,描述行爲隨着時間變化的對象所遵循的規律或趨勢。

(2)、數據挖掘的實際步驟:確定業務對象、數據的選擇、數據的預處理、建模、模型評估、模型部署。(簡答題

第三節 大數據管理技術

一、大數據定義

大數據通常定義:數據量很大、數據形式多樣化的數據。

(1)、大數據有以下特徵:

1)、大量化:數據規模龐大。
2)、多樣化:數據種類繁多,各方面存在差異性。
3)、快速化:處理數據效率要快。
4)、價值密度低:

二、大數據管理技術典型代表

(1)、大數據存儲:Hadoop開源架構下的分佈式文件系統(HDFS)。

HDFS的優點:(簡答題
HDFS與常規文件不同,是以粒度數據塊的方式存儲文件,從而減少了元數據的數量,其數據塊通過隨機的方式選擇不同的結點並存儲在各個地方。其他存儲方式就有良好的可擴展性,可支持千萬量級的存儲,併爲上層應用提供透明的數據訪問和存儲功能,還有容錯率,通過多副本數據塊的存儲方式保障系統從故障中快速恢復。

(2)、NoSQL數據管理系統(分佈式數據管理系統),系統支持的數據存儲模型通常有鍵值(Key-Value)模型(NoSQL數據庫採用的最多存儲方式)、文檔(Document)模型、列(Column)模型和圖(Graph)模型。

1)、文檔存儲不需要定義表結構,適合存儲非結構化的數據,常見文檔型數據庫有CouchDB、MongoDB。
2)、列存儲以列爲單位,讀入數據,具高擴展性(Cassandra、HBase)。
3)、圖存儲是基於圖理論構建,結點代表實體,屬性保存與結點相關的信息,邊用來連接結點,表示兩者關係。

(3)、MapReduce技術:是一種併發編程,也是一種軟件框架。

MapReduce技術的執行過程:(簡答題
對輸入的數據塊源進行分塊,交給多個MAP任務去執行,MAP任務執行MAP的函數,根據某種規則對數據分類,寫入本地硬盤;進入Reduce階段,Reduce函數將MAP階段有相同key值的結果進行收集與合併,在次寫入。最終結果可通過合併所有Reduce任務的輸出得到。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章