瞭解 sdhash

SDHASH

1.       sdhash : similarity digests hash (相似性摘要散列)

automate content triage . 用於自動內容分類

此處的摘要(digest)指的是:Metadata--元數據:元數據指的是計算機用來標識文件的一些附加信息,例如文件名,文件類型,文件時間戳,文件在物理存儲介質的數據分佈等。

官網關於sdhash的介紹(Google翻譯):

sdhash是一個工具,它允許兩個任意的數據塊基於常見的字符串進行相似性比較二進制數據。它被設計爲在分類和初始調查階段提供快速結果。它已經在從2010年開始積極開發,明確目標是變得快速,可擴展和可靠。

實際用處:

有兩個一般類問題,其中sdhash可以提供顯着的好處 - 片段識別和版本相關。

在片段識別中,我們在較大的數據內搜索較小的數據片段(“needle-in-a-haystack”)。

例如:

•塊與文件相關:給定一塊數據(磁盤塊/網絡包/ RAM頁面/等),我們可以搜索一個引用文件集合來識別塊是否來自其中的任何一個。

•文件與RAM /磁盤映像:給定文件和目標映像,我們可以有效地確定是否有任何文件可以在磁盤映像上找到(包括釋放存儲)。

在版本關聯中,我們感興趣的是關聯大小可比較的數據對象(文件),因此類似的對象可以被視爲版本。這是兩個基本方案,其中這是有用的 - 識別相關文檔和識別代碼版本。

 

Digest generation(摘要生成):

The output encodes the following pieces of information, separatedby colons: magic number, version,length of file name, file name, hash functionused to hash features (sha1), size of constituent Bloom filters in bytes,number of subhashes per feature,bit mask used to derive the subhashes, numberof features per filter, number of filters in the digest,number of features inthe last filter, and base64-encoded sequence of filters.

翻譯:輸出將編碼以冒號分隔的以下信息:幻數,版本,文件名長度,文件名,用於散列特徵的散列函數組成的布隆過濾器的大小,每個特徵的子散列數,用於導出子散列的位掩碼,每個過濾器的特徵數目,摘要中的過濾器數目 最後一個過濾器中的特徵數,以及過濾器的base64編碼序列。

The size of a similarity digest is proportional to the size of thedata targets. The in-memory sdhash representation is, on average, 2.6% of thesize of the target (approximately 256 bytes of digest per 9.5 KB of data).After the base64 encoding, it expands to about 3.6% on disk.

相似性摘要的大小與數據目標的大小成比例。 內存中sdhash表示平均爲目標大小的2.6%(每9.5 KB數據大約256字節的摘要)。 在base64編碼之後,它在磁盤上擴展到大約3.6%。


傳送門:http://roussev.net/sdhash/sdhash.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章