【數據治理相關概念】(三)數據溯源綜述

目錄

1.1 概念和定義

1.2 數據溯源模型

1.3 幾種主要的數據溯源模型

1.4 數據溯源方法

1.5 數據溯源的應用


1.1 概念和定義

數據溯源(data provenance)是一個新興的研究領域,誕生於 20 世紀 90 年代。當初,某些文獻將其稱爲數據志或數據檔案,後來,大部分文獻將其命名爲數據起源,有追蹤數據的起源和重現數據的歷史狀態之意。本文稱其爲數據溯源,從應用的角度出發,強調追蹤的過程和方法。

目前,數據溯源還沒有公認的定義,因應用領域不同而定義各異。我們參考一些學者給出的定義:

1、將數據溯源定義爲從源數據到數據產品的衍生過程信息;

2、在數據庫領域將其定義爲“數據及其在數據庫間運動的起源”;

3、數據溯源是對目標數據衍生前的原始數據以及演變過程的描述;

4、數據溯源是一種元數據,用來記錄工作流演變過程、標註信息以及實驗過程等信息。

在其它一些領域中還有其它一些叫法: 如數據族系( Data Lineage) 、數據系譜( Data Pedigree) 、數據來源( Data Origin) 、數據世系等。

數據溯源定義爲記錄原始數據在整個生命週期內( 從產生、傳播到消亡)的演變信息和演變處理內容。我們認爲,Data Provenance 應該翻譯成“數據溯源”,強調的是一種溯本追源的技術,根據追蹤路徑重現數據的歷史狀態和演變過程,實現數據歷史檔案的追溯。

1.2 數據溯源模型

建立一個數據模型是數據溯源的關鍵技術。根據模型可以初步確定數據溯源的大體步驟和基本思路。

從數據溯源信息管理的角度出發,提出異構數據的數據溯源概念。即採用橫軸表示時間(t)、縱軸表示過程(p)、z軸表示數據的異構分佈特性。將數據溯源信息保存到不同的數據庫中,形成攜帶溯源信息的異構數據庫。通過數據庫接口以及數據轉換工具匯聚成目標數據庫。這個過程的逆過程所經歷的路徑能夠實現數據溯源的各種操作,如:數據追蹤、信息評估、過程重現等,從而完成數據溯源任務。

1.3 幾種主要的數據溯源模型

目前,數據溯源模型主要有:流溯源信息模型、時間-值中心溯源模型、四維溯源模型、開放的數據溯源模型、Provenir數據溯源模型、數據溯源安全模型,PrInt 數據溯源模型等,這些模型都建立在不同領域、不同行業。

1、流溯源信息模型由 6 個相關實體構成,主要包括流實體(變化事件實體、元數據實體和查詢輸入實體) 和查詢實體(變化事件實體、接收查詢輸入實體,包括元數據實體)。實體間關係密切,通過這種密切的關係可以根據數據的溯源時間來推斷數據溯源。

2、Bow ers S 提出的
Time-Value Centric ( TVC ) 模型又稱時間-值中心溯源模型,是一種簡單有效的溯源模型。由於過去的溯源模型無論是基於標註的還是基於過程的溯源模型都用於面向交易的系統中,並不適合高容量特定需求以及連續的醫療流。於是,提出支持醫療領域數據源特點的 TVC 模型專門處理醫療事件流的溯源信息。根據數據中的時間戳和流 ID 號來推斷醫療事件的序列和原始數據的痕跡。

3、四維溯源模型是由 Yogesh L.
Simmhan 等人提出。此模型將溯源看成一系列離散的活動集,這些活動發生在整個工作流生命週期中,並由四個維度(
時間、空間、層和數據流分佈) 組成。四維溯源模型通過時間維區分標註鏈中處於不同活動層中的多個活動,進而通過追蹤發生在不同工作流組件中的活動,捕獲工作流溯源和支持工作流執行的數據溯源。

4、開放的數據溯源模型 OPM,在首屆
International Provenance and Annotation Workshop( IPAW) 會議中,與會者對數據溯源的描述產生了一些共同的觀念,並提出了一種原始的數據模型。後來,南安普頓大學等組織整理了會議的主要思想並發表了題爲“The Open Provenance Model”文章,文中提及的模型基本形成業界信息交換標準,定義一些具體的格式和協議就能應用到實際當中。

5、Provenir數據溯源。模型2008年,在由Freire和Moreau組織的第二屆
IPAW 會議中,Sahoo 等人提出了Provenir 數據溯源模型,該模型使用W3C 標準對模型加以邏輯描述,考慮了數據庫和工作流兩個領域的具體細節,從模型、存儲到應用等方面形成了一個完整的體系,成爲首個完整的數據溯源管理系統。用分類的方式闡明它們之間的相互關係.
該模型提供對數據產生歷史的元數據、原數據、修改元數據等功能,並使用物化視圖的方法有效解決了數據溯源的存儲問題.

6、數據溯源安全模型。數據溯源技術能夠溯本追源,通過其起源鏈的記錄信息來實現追源的目的,但是記錄信息本身也是數據。因此,同樣存在安全隱患,爲了防止有人惡意篡改數據溯源中起源鏈的相關信息,李秀美等 2010 年研究了數據溯源的安全模型,利用密鑰樹再生成的方法並引入時間戳參數,有效地防止某人惡意篡改溯源鏈中的溯源記錄,對數據對象在生命週期內修改行爲的記錄按時間先後組成溯源鏈,用文檔來記載數據的修改行爲,當進行各種操作時,文檔隨着數據的演變而更新其內容,通過對文檔添加一些無法修改的參數比如: 時間戳、加密密鑰、校驗和等來限制操作權限,保護溯源鏈的安全。

7、PrInt數據溯源模型。PrInt是一種支持實例級數據一體化進程的數據溯源模型。該模型主要集中解決一體化進程系統中不允許用戶直接更新異構數據源而導致數據不一致的問題。由 PrInt提供的再現性是基於日誌記錄的,並將數據溯源納入一體化進程。

以上七種模型是比較經典的模型,其中,對於前三種模型而言,流模型和時間-值模型沒有明確指出對 W7 模式的支持,只有四維模型支持動態構建數據溯源圖,能根據一系列溯源事件以及數據結點和服務結點所構成的數據流邊來構建。存在的不足之處在於形成過程不直接,難於理解。後面幾種模型是從不同的角度,不同層次,針對數據溯源的某種特性而建立起來的模型。隨着時間的推移,數據溯源模型會越來越多。

1.4 數據溯源方法

目前,數據溯源追蹤的主要方法有標註法和反向查詢法。除此之外,還有通 用的數據追蹤方法,雙向指針追蹤法,利用圖論思想和專用查詢語言追蹤法,以及文獻提出以位向量存儲定位等方法。

標註法是一種簡單且有效的數據溯源方法,使用非常廣泛。通過記錄處理相關的信息來追溯數據的歷史狀態,即用標註的方式來記錄原始數據的一些重要信息,如背景、作者、時間、出處等,並讓標註和數據一起傳播,通過查看目標數據的標註來獲得數據的溯源。Sudha等人提出的7W模型,就是採用標註法,事先標記並攜帶溯源信息完成數據溯源的模型,被稱爲eager方法。採用標註法來進行數據溯源雖然簡單,但存儲標註信息需要額外的存儲空間。反向查詢法,有的文獻也稱逆置函數法。由於標註法並不適合細粒度數據,特別是大數據集中的數據溯源,於是,提出了逆置函數反向查詢法,此方法是通過逆向查詢或構造逆向函數對查詢求逆,或者說根據轉換過程反向推導,由結果追溯到原數據的過程。這種方法是在需要時才計算所以又叫lazzy方法。反向查詢法關鍵是要構造出逆向函數,逆向函數構造的好與壞直接影響查詢的效果以及算法的性能,與標註法相比,它比較複雜,但需要的存儲空間比標註法要小。

1.5 數據溯源的應用

數據溯源最早僅用於數據庫、數據倉庫系統中,後來發展到對數據真實性要求比較高的各個領域: 如生物、歷史、考古、天文、醫學等。隨着互聯網的迅猛發展以及網絡欺騙行爲的頻繁發生,人們越來越懷疑數據的真僞,對數據的真實性要求越來越高。數據溯源成爲考究數據真假的有效途徑,掀起了一波數據溯源研究的熱潮,因此,數據溯源追蹤逐漸擴展到計算機各行各業。目前,研究領域已經覆蓋到地理信息系統( GIS) 、雲計算、網格計算、普適計算、無線傳感器網絡和語義網絡等。其中,數據溯源在數據庫和工作流領域的研究最爲流行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章