ImSQL:海量數據,可信存儲

數據造假、數據不可信等問題的存在,給金融監管及風控等衆多應用場景帶來了嚴峻的挑戰,也正成爲阻礙數據大規模互聯互通、共享共用的一大障礙。數據的真實可信問題長期影響着社會的各個領域,在更依賴數據的人工智能時代,這一影響將更爲凸顯。

數據造假可能發生在任一環節。其中,在數據存儲期間造假往往更加簡單:因爲在現有數據存儲技術下,數據的所有者、管理人員或受託存儲方均有能力單方對數據進行任意的篡改或刪除。

既然數據不可信的一個重要原因歸咎於單方可以擅自篡改和刪除數據,那麼如何避免這一問題自然也得到了業界大量的關注。區塊鏈和去中心化存儲技術的誕生,對數據篡改起到了一定的遏制作用,也在市場上取得了初步驗證。

許多企業開始嘗試採用區塊鏈存儲數據,例如在貨物追溯等場景。其做法往往是將重要數據直接寫入區塊中。這一簡單粗暴的做法確實解決了數據防刪改需求、繼而滿足了部分數據的可信分享,但卻存在較多問題:

首先是無法存儲海量數據:區塊內不適合存儲包括多媒體數據等在內的大數據,否則區塊大小難以控制,使區塊鏈的可擴展性變差。這就導致業務中必須對原生數據進行篩選取捨,僅選取少量必要數據存入區塊,但這將降低可信數據的豐富程度。

其次是數據存取效率低:首先,由於打包過程的存在,區塊鏈數據存儲一般不用於高速的數據寫入。其次,由於遍歷式的數據讀取方法,區塊鏈無法支持快速索引、更無法支持SQL。

再次是數據維護效率低:區塊鏈因其順序引用的特點,不支持對個別歷史數據的刪除和修改(除非對全鏈重新生成,但這是區塊鏈不應鼓勵的行爲)。這裏需注意:“杜絕單方的私自篡改”和“完全不能刪改”是完全不同的兩件事。前者是一種確保互信的技術手段,但後者可能屬於一種必要功能點的喪失。

最後是有數據丟失風險:這一風險單指採用中本聰共識最長鏈原則的PoW區塊鏈系統。在這類區塊鏈中,當出現鏈分叉時,最長(或最重)的鏈分支會被保留,其他分支會被拋棄,這就使區塊內的數據實際上永遠存在被“顛覆”、被丟棄的風險。而自私挖礦等行爲的存在,會加劇這一風險。這在數據存儲應用中是無法接受的。

正是由於上述原因,直接採用傳統區塊鏈進行數據存儲顯然無法滿足大量實踐性場景中對可信數據存儲的需求。這一問題也因而引發了大量的探討,例如“什麼數據應該在鏈上存儲、什麼數據應該在鏈下存儲”。這些問題的出現,究其根本,還是因爲區塊鏈自身存儲效率及能力受限所致的。畢竟在數據庫時代,我們從來不會談論“什麼數據應該存放在數據庫之外”這樣的問題。

近年來也出現了一些產品,爲解決上述的區塊鏈數據存儲效率低下問題提供了有益的實踐,例如:

星際文件系統IPFS, R3的Corda,騰訊TrustSQL等。然而這些產品在數據可信存儲方面仍存在或多或少的問題,具體而言:

IPFS對數據內容生成哈希摘要,並在多個節點間進行分佈式存儲,單個保有者不掌握完整數據,一定程度保護了數據隱私。但IPFS只能做到修改可知(因哈希值會因內容改變而變化),並且沒有訪問控制等數據安全措施,整體而言仍難以滿足企業級服務需求。

Corda是面向金融交易隱私需求量身定做的存儲產品,重點關注數據存儲的隱私性。爲此,Corda沒有全局賬本,並需要見證人的存在,是一種隱私但並不足夠安全可信的數據存儲方案。

TrustSQL與國內其它同類產品採用了一種簡單直觀的設計思路,也是目前國內最爲常見的做法,即:先將數據存入數據庫(或IPFS),再將操作記錄、數據哈希等存於鏈上。相對於TrustSQL而言,一些類似產品如衆享比特的ChainSQL等進一步提升了對SQL的支持度。該類產品滿足了數據“可審計”、“監管透明”的需求,但缺點是依然無法杜絕對數據本身的刪改行爲,只是能做到“刪改可知”;此外,對關鍵數據的保全需要依賴參與節點的全副本存儲,存儲成本略高。並且在數據隱私性方面的設計仍顯不足。

針對上述產品中存在的不足,物緣科技通過原創技術創新,探索出一條不同的道路,並推出自主知識產權產品“ImSQL”,旨在提供一種可真正確保數據不被私自篡改或刪除的可信存儲產品。

ImSQL(Immutable SQL Database)是基於區塊鏈和分佈式存儲技術上的一種新型可信數據存儲解決方案,並完美解決了“防止私自刪改”、“保護數據隱私”、“降低存儲成本”等核心問題,爲大數據時代的可信存儲與數據分享提供了可靠的技術路徑。

相比現有產品,ImSQL具有以下幾點突出優勢:

1. 徹底杜絕單方對數據的私自篡改和刪除。通過在存和取兩個環節進行多方校驗並在存儲過程中杜絕篡改刪除,全方位保障數據的真實可信性,使應用中的參與方能夠互信、放心地採納它方數據,使數據能夠支撐精準追溯、追責。

2. 杜絕單點失敗。多方共用數據的同時也共同維護數據,數據不只存於一方,從根本上實現分佈式數據的可信共享池,既避免了單點失敗風險,也提升了數據分享效率。

3. 碎片化存儲,滿足數據隱私需求,使任何一方無法掌握完整數據,從而解決了傳統雲計算的中心化存儲、或區塊鏈全副本存儲均存在的數據隱私問題。除了數據所有方,其他任何存儲託管者都無法獲得完整數據。

4. 優異的數據存取性能:ImSQL單節點可達3000 TPS的寫入速度和10000 QPS的讀取速度。此外,ImSQL還具有:支持SQL語言,可水平擴展等優點,存取性能和使用體驗優異,並可充分利用集qun擴展使上述指標進一步達到數倍增長。

5. 滿足多媒體等大數據的高效存取需求,支持高效存取、高效索引、高效擴展,真正勝任大數據業務場景,可以對視頻等數據實現既可信又高效的存儲,從而給視頻監控等場景提供前所未有的可信保全體驗。

6. 採用分片式設計,極大降低了每個存儲參與方的存儲壓力和成本,使更多參與方有機會加入和參與到數據可信共享的生態中。

7. 分佈式架構,兼容輕節點,鼓勵更多節點參與。不存在超能節點,參與存儲的節點地位相同,更好保證系統的可靠性和抗毀性。此外,如果節點選擇運行在輕副本模式,可只存儲部分數據,使自身存儲壓力極大降低,義務雖然減輕但權力可不受任何影響。

ImSQL兼顧了海量存儲、快速索引、水平擴展等數據庫屬性,也兼顧了數據即存即固化的區塊鏈特徵,在衆多關注數據可信存儲與分享的領域中,有望帶來前所未有的使用體驗和便利,例如:實現供應鏈中各方數據的互通與互信、實現政府或大企業各部門間數據的互聯互通、支撐可信追溯相關海量數據的存儲等。

以政府大數據建設爲例。在政府衆多不同部門和實體間實現高效的數據互聯互通一直是個難題。現行做法往往需要建立獨立的大數據部門,構建獨立數據存儲體系,從不同實體拉取相關數據後解析、重構,再實現可視化。這往往會帶來較大的前期開銷,既包含人、財、物等多種顯性開銷,也暗含人員編制、權責利益、時間成本、部門牆等隱性開銷。同時,獨立大數據部門的存在也隱含了需要一個可信第三方背書乃至承擔責任的考慮。如果在這一場景下采用ImSQL作爲數據互通的底層基礎平臺,就可以更爲高效的完成這一任務,具體體現在:

  1. 無須依賴第三方實體背書:不同實體間數據可直接寫入ImSQL,寫入即保全,數據無法再被任一單方私自篡改和刪除,保證其他實體在任何時間取用數據時的可用性、一致性和可信性;

  2. 無須建立和維護額外的數據存儲系統:數據由所有參與實體共同存儲和維護,天然共享、打通,不降低使用效率的同時減少了系統實施和維護成本。同時,ImSQL的數據碎片化存儲技術,在實現數據共享的同時也能兼顧隱私保護,即,所有實體存儲的數據可以是不完整的片段,只有那些具備訪問權的實體才掌握對片段數據進行查找、組合並解釋的鑰匙。

綜上,作爲一種可信的、防數據篡改的數據存儲技術,ImSQL完全繼承了區塊鏈數據保全的優勢,又突破了區塊鏈在效率方面的弱點,爲用戶提供了和數據庫同樣高效的數據存取體驗。ImSQL是區塊鏈和數據庫技術相結合而產生的新品類,更是實現可信數據存儲的不二選擇。

作者信息:焦臻楨博士,物緣科技創始人,副教授/碩導(中科院)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章