數據庫系統原理第八章

第八章數據管理技術的發展

**大家想一起學習交流的可以加羣，WX：MrCroods。**

第一節數據庫技術發展概述

數據模型是數據庫系統的核心和基礎。三個發展階段：
第一代的網狀、層次數據庫系統，第二代的關係數據庫系統，以及新一代的數據庫系統。

一、第一代數據庫系統

第一代數據庫系統的數據模型：層次模型和網狀模型。

（1）、層次模型數據庫管理系統IMS。
（2）、DBTG所提議的方法（該方法是20世紀60年代末70年代初提出）是基於網狀結構的，是網狀模型數據庫系統。
（3）、兩類數據庫系統的共同特點：

1）、支持三級模式（外模式、模式、內模式）的體系結構。（具有轉換功能）
2）、用存取路徑來表示數據之間的聯繫。
3）、獨立的數據定義語言。
4）、導航的數據操縱語言。（過程化語言）

二、第二代數據庫系統

20世紀70年代稱爲數據庫時代。
20世紀80年代開發出的DBMS稱爲關係數據庫系統.

第二代數據庫系統的數據模型：關係數據模型。
關係模型由數據結構、關係操作和數據完整性組成
第二代數據庫系統特點如下：
模型簡單清晰、理論基礎好】數據獨立性強、數據庫語言非過程化和標準化。

三、第三代數據庫系統（`簡答題`）

（1）、第三代數據庫系統需滿足《第三代數據庫系統宣言》的三個基本特徵：

1）、第三代數據庫系統應支持數據管理、對象管理和知識管理。
需要以支持面向對象數據模型爲主要特徵的數據庫系統。
2）、第三代數據庫系統必須保持或繼承第二代數據系統的技術。
非過程化數據存取方式和數據獨立性。
3）、第三代數據庫系統必須對其他系統開放。
開放性表現在：支持數據庫語言標準；支持標準網絡協議；具有可移植性、可連接性、可擴展性和互操性。

第二節數據倉庫與數據挖掘

一、從數據庫到數據倉庫

兩類不同的數據出來工作：一類是操作型處理，也稱爲聯機事務處理（OLTP）；
另一類是分析型處理，也稱爲聯機分析處理（OLAP）。

（1）、數據倉庫概念：數據倉庫是面向主題的、集成的、穩定的、隨時間變化的數據集合、用以支持管理決策的過程。（一種面向分析的數據存儲方案）
（2）、數據倉庫的特徵：面向主題、集成性、數據的非易失性、數據的時變性。
（3）、數據倉庫的重要概念：粒度、分割、維。

1）、粒度：數據倉庫的數據單位中保存數據的細化或綜合程度的級別。
細化程度越高、粒度級就越小。
2）、分割：將數據分散到各自的物理單元中，便於分別處理，以提高數據處理的效率。
數據分割後的單元稱爲切片。
3）、維：特定角度，是考慮問題時的一類屬性。（最常用的是時間維）

（4）、數據倉庫也稱爲企業倉庫，數據集市體系結構的數據倉庫概念，其基本思想是自下而上的數據倉庫的開發方法；
（5）、數據集市結構的數據倉庫，又稱爲主題結構數據倉庫，按照主題進行構思形成的數據倉庫。
（6）、數據集市分爲獨立的數據集市、從屬的數據集市、混合數據集市。

二、數據挖掘技術

數據挖掘是從大量的，不完全的，有噪聲的、模糊的、隨機的應用數據中發現並提取潛在有用的信息和知識的一種技術,也稱爲數據庫中的知識發現。
OLAP是數據彙總/聚集工具。其目標是簡化和支持交互式數據分析，而數據挖掘的目標是儘可能自動處理。

在數據庫技術中，數據處理基於查詢，可發現有用的信息。

（1）、數據挖掘的具有的功能

1）、概念描述：通過數據挖掘，可總結某些數據特徵。
2）、關聯分析：目的是找出數據庫中隱藏的關聯網。
關聯分爲簡單關聯、時序關聯、因果關聯。
3）、分類與預測：分類是找出一個類別的概念描述，代表了這類數據的整體信息，即該類的內涵描述，並用此來構造模型，一般用規則或決策樹模式表示。
常見的分類模型及算法有決策樹模型、神經網絡模型、線性迴歸模型。
4）、聚類：是把數據按照相似性歸納成若干類別，其目的是使屬於同一類別的對象之間的距離儘可能小，而不同類別的對象之間的距離儘可能大。（常用方法：K-Means、GMM）
5）、孤立點檢測：孤立點是指數據中與整體表現行爲不一致的數據集合。
6）、趨勢和演變分析：通過數據挖掘，描述行爲隨着時間變化的對象所遵循的規律或趨勢。

（2）、數據挖掘的實際步驟：確定業務對象、數據的選擇、數據的預處理、建模、模型評估、模型部署。（簡答題）

第三節大數據管理技術

一、大數據定義

大數據通常定義：數據量很大、數據形式多樣化的數據。

（1）、大數據有以下特徵：

1）、大量化：數據規模龐大。
2）、多樣化：數據種類繁多，各方面存在差異性。
3）、快速化：處理數據效率要快。
4）、價值密度低：

二、大數據管理技術典型代表

（1）、大數據存儲：Hadoop開源架構下的分佈式文件系統（HDFS）。

HDFS的優點：（簡答題）
HDFS與常規文件不同，是以粒度數據塊的方式存儲文件，從而減少了元數據的數量，其數據塊通過隨機的方式選擇不同的結點並存儲在各個地方。其他存儲方式就有良好的可擴展性，可支持千萬量級的存儲，併爲上層應用提供透明的數據訪問和存儲功能，還有容錯率，通過多副本數據塊的存儲方式保障系統從故障中快速恢復。

（2）、NoSQL數據管理系統（分佈式數據管理系統），系統支持的數據存儲模型通常有鍵值（Key-Value）模型（NoSQL數據庫採用的最多存儲方式）、文檔（Document）模型、列（Column）模型和圖（Graph）模型。

1）、文檔存儲不需要定義表結構，適合存儲非結構化的數據，常見文檔型數據庫有CouchDB、MongoDB。
2）、列存儲以列爲單位，讀入數據，具高擴展性（Cassandra、HBase）。
3）、圖存儲是基於圖理論構建，結點代表實體，屬性保存與結點相關的信息，邊用來連接結點，表示兩者關係。

（3）、MapReduce技術：是一種併發編程，也是一種軟件框架。

MapReduce技術的執行過程：（簡答題）
對輸入的數據塊源進行分塊，交給多個MAP任務去執行，MAP任務執行MAP的函數，根據某種規則對數據分類，寫入本地硬盤；進入Reduce階段，Reduce函數將MAP階段有相同key值的結果進行收集與合併，在次寫入。最終結果可通過合併所有Reduce任務的輸出得到。

數據庫系統原理第八章

第八章數據管理技術的發展

第一節數據庫技術發展概述

一、第一代數據庫系統

二、第二代數據庫系統

三、第三代數據庫系統（`簡答題`）

第二節數據倉庫與數據挖掘

一、從數據庫到數據倉庫

二、數據挖掘技術

第三節大數據管理技術

一、大數據定義

二、大數據管理技術典型代表

數據庫系統原理第三章

離散數學第一部分

數據庫系統原理第八章

軟件工程第四章（第二部分）

數據庫系統原理第四章

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

數據庫系統原理第八章

第八章 數據管理技術的發展

第一節 數據庫技術發展概述

一、第一代數據庫系統

二、第二代數據庫系統

三、第三代數據庫系統（簡答題）

第二節 數據倉庫與數據挖掘

一、從數據庫到數據倉庫

二、數據挖掘技術

第三節 大數據管理技術

一、大數據定義

二、大數據管理技術典型代表

第八章數據管理技術的發展

第一節數據庫技術發展概述

三、第三代數據庫系統（`簡答題`）

第二節數據倉庫與數據挖掘

第三節大數據管理技術