上週五睡眼朦朧的時候,導師說我今年名額沒申請下來,你掛在xx名下可以麼?我竟一時不知道說什麼好。算是被坑了一下。不過也不全是壞事,之前組裏的氣氛很讓人頭大,換個新組開始新研究,反倒覺得更有盼頭了。
ACM SIGKDD
TrajGuard:A Comprehensive Trajectory Copyright Protection Scheme
軌跡數據在許多城市應用中得到了廣泛的應用。由於軌跡數據包含了運動目標的隱私信息,因此在有效監控下實現軌跡數據的共享是一項非常重要的任務。大公司通過購買用戶的私人數據來進行行爲預測,推薦等。然而,惡意數據用戶可以通過各種方式修改軌跡,以避免基於散列的數據簽名(如MD5)對數據分佈的跟蹤。因此作者提出一種軌跡的版權保護方案,該方案分爲三個部分1)身份信息分佈地嵌入一組基於時空區域劃分的子軌跡;2)以子軌跡的質心距離作爲穩定的軌跡屬性嵌入信息;3)採用區塊鏈技術作爲可信第三方,記錄所有數據事務歷史,進行分散的數據分佈跟蹤。最後在兩個數據集上驗證了算法的有效性。
fig1.惡意用戶竊取其他用戶上傳數據修改後出售
傳統的軌跡版權驗證方式:在數據中嵌入ID
侷限性:1、攻擊者修改原數據導致數據提供者的原始數據被篡改。2、沒有一箇中心組織來規範數據提供者,是的攻擊者可以反覆發動攻擊。
解決方案:
1)身份信息分佈地嵌入一組基於時空區域劃分的子軌跡;
將ID分佈式的嵌入多個子軌跡中
2)以子軌跡的質心距離作爲穩定的軌跡屬性嵌入信息;
嵌入子軌跡質心距離(centroid distance)以確保數據時空特性不被修改
3)採用區塊鏈技術作爲可信第三方,記錄所有數據事務歷史,進行分散的數據分佈跟蹤。
引入共識機制,加強對攻擊者的限制
ti:timestamp pi:point
使用線性插值來估計軌跡pt(t)是軌跡函數
表示可修改的最大距離
質心定義爲軌跡中各點的平均座標
各點到質心的距離
問題描述:在
條件下,即數據效用保留的條件下。通過嵌入ID信息使數據不被修改
整體框架:
標識嵌入:它將身份信息嵌入到軌跡數據集中。我們首先將原始軌跡劃分爲子軌跡,以便在整個數據集上分佈身份信息。在每個子軌跡中,利用軌跡質心距離來嵌入信息。最後,所有嵌入的子軌跡被連接成一個完整的軌跡數據集。所有權檢測:當數據提供者獲得可疑數據集時,它識別軌跡數據的所有權。首先,它分割軌跡與嵌入過程相同的設置。然後,信息提取模塊從每個子軌跡中提取嵌入的信息。如果提取的信息與嵌入的信息相匹配,就可以確認數據的所有權,證明數據的非法再分配行爲。所有權跟蹤:所有權跟蹤流程記錄數據事務歷史,作爲可信的第三方來證明數據事務的存在。這樣,當檢測到身份信息時,數據剽竊者就不能否認非法的數據重新分發活動。爲了使其公平並得到所有人的認可,交易日誌記錄器由區塊鏈以一種分散的模式維護,這樣就沒有人能夠控制日誌記錄器。
ATTACKS ON TRAJECTORY DATA
空間攻擊:1、增加噪音2、改變軌跡
時間攻擊:修改時間軸
身份embedding:
根據spartial和temporal將tracjectory分割,每個latitude和longitude劃分成不同的grid,每個grid中的小數部分進行映射。根據我們的假設,當
時,數據的效用不會產生變化。因此,經過變化後的數據仍可作爲用戶行爲的輸入的一部分。我們將用戶的ID以分佈式的方式嵌入到每個grid中。這時,數據中包含了我們的ID屬性,而且這種方式解決了spartial的noise add攻擊。其中兩個主要問題時確定數據效用的T和grid的劃分方式。(但是由於這種方式的算法是透明的,可以被其他人使用,所以沒有解決copyright的問題)。
copyright的解決使用了區塊鏈技術,即建立一個區中心網絡,對於每個用戶上傳的數據進行認證。使得攻擊者無法篡改數據的所有者。
最後作者使用了兩個數據集來作爲實驗結果的驗證:
1、geolife2、t-driver
baseline選擇了 Fourier Descriptor Modulation和Distance Modulation between Feature Points
使用了多種攻擊來驗證模型的魯棒性。結果如下:
其中模型對攻擊的識別準確率達到85%即認爲該模型時可以識別這類攻擊的。可以看到我們的方法對攻擊識別準確率均爲yes。超過傳統的FDM和DMFP