哈希表簡介

 
       Hash,一般翻譯做“散列”,也有直接音譯爲”哈希“的,就是把任意長度的輸入(又叫做預映射)通過散列算法變換成固定長度的輸出,該輸出就是散列值。這種轉換是一種壓縮映射,散列值的空間通常遠小於輸入的空間,不同的輸入可能會散列成相同的輸出,而不可能從散列值來唯一的確定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數
  Hash主要用於信息安全領域中加密算法,他把一些不同長度的信息轉化成雜亂的128位的編碼裏叫做HASH值。也可以說,hash就是找到一種數據內容和數據存放地址之間的映射關係
       在一般的線性表或樹中,“記錄”在結構中的相對位置是隨機的,即和記錄的關鍵字之間不存在確定的關係,在結構中查找“記錄”時需進行一系列和關鍵字的比較。這一類查找方法建立在“比較”的基礎上,查找的效率與比較次數密切相關。理想的情況是能直接找到需要的記錄,因此必須在記錄的存儲位置和它的關鍵字之間建立一確定的對應關係f,使每個關鍵字和結構中一個唯一的存儲位置相對應。因而查找時,只需根據這個對應關係f找到給定值K的映射f(K)。若結構中存在關鍵字和K相等的記錄,則必定在f(K)的存儲位置上,由此不需要進行比較便可直接取得所查記錄。在此,稱這個對應關係f爲哈希函數,按這個思想建立的表爲哈希表(又稱爲散列表)。
  哈希表不可避免衝突現象:對不同的關鍵字可能得到同一哈希地址 即key1≠key2,而f(key1)=f(key2)。具有相同函數值的關鍵字對該哈希函數來說稱爲同義詞(synonym)。 因此,在構造哈希表時不僅要設定一個好的哈希函數,而且要設定一種處理衝突的方法。可如下描述哈希表:根據設定的哈希函數H(key)和所選中的處理衝突的方法,將一組關鍵字映象到一個有限的、地址連續的地址集(區間)上並以關鍵字在地址集中的“象”作爲相應記錄在表中的存儲位置,這種表被稱爲哈希表
  對於動態查找表而言:1) 表長不確定;2)在設計查找表時,只知道關鍵字所屬範圍,而不知道確切的關鍵字。因此,一般情況需建立一個函數關係,以f(key)作爲關鍵字爲key的錄在表中的位置,通常稱這個函數f(key)爲哈希函數(注意:這個函數並不一定是數學函數) 。
  哈希函數是一個映象,即:將關鍵字的集合映射到某個地址集合上,它的設置很靈活,只要這個地址集合的大小不超出允許範圍即可。


  基本概念:
  若結構中存在關鍵字和K相等的記錄,則必定在f(K)的存儲位置上。由此,不需比較便可直接取得所查記錄,稱這個對應關係f爲散列函數,按這個思想建立的表爲散列表
  對不同的關鍵字可能得到同一散列地址,即key1≠key2,而f(key1)=f(key2),這種現象稱衝突。具有相同函數值的關鍵字對該散列函數來說稱做同義詞。綜上所述,根據散列函數H(key)和處理衝突的方法將一組關鍵字映象到一個有限的連續的地址集(區間)上,並以關鍵字在地址集中的“象” 作爲記錄在表中的存儲位置,這種表便稱爲散列表,這一映象過程稱爲散列造表或散列,所得的存儲位置稱散列地址
  若對於關鍵字集合中的任一個關鍵字,經散列函數映象到地址集合中任何一個地址的概率是相等的,則稱此類散列函數爲均勻散列函數(Uniform Hash function),這就是使關鍵字經過散列函數得到一個“隨機的地址”,從而減少衝突。
  散列函數能使對一個數據序列的訪問過程更加迅速有效,通過散列函數數據元素將被更快地定位。常用的構造散列函數的方法:
  1. 直接尋址法:取關鍵字或關鍵字的某個線性函數值爲散列地址。即H(key)=key或H(key) = a•key + b,其中a和b爲常數(這種散列函數叫做自身函數
  2. 數字分析法
  3. 平方取中法
  4. 摺疊法
  5. 隨機數法
  6. 除留餘數法:取關鍵字被某個不大於散列表表長m的數p除後所得的餘數爲散列地址。即 H(key) = key MOD p, p<=m。不僅可以對關鍵字直接取模,也可在摺疊、平方取中等運算之後取模。對p的選擇很重要,一般取素數或m,若p選的不好,容易產生同義詞。
  處理衝突的方法:
  1. 開放尋址法;Hi=(H(key) + di) MOD m, i=1,2,…, k(k<=m-1),其中H(key)爲散列函數,m爲散列表長,di爲增量序列,可有下列三種取法:
      (1) di=1,2,3,…, m-1,稱線性探測再散列
      (2) di=1^2, (-1)^2, 2^2,(-2)^2, (3)^2, …, ±(k)^2,(k<=m/2)稱二次探測再散列;
      (3) di=僞隨機數序列,稱僞隨機探測再散列
  2. 再散列法:Hi=RHi(key), i=1,2,…,k RHi均是不同的散列函數,即在同義詞產生地址衝突時計算另一個散列函數地址,直到衝突不再發生,這種方法不易產生“聚集”,但增加了計算時間。
  3. 鏈地址法(拉鍊法)
  4. 建立一個公共溢出區
  查找的性能分析:
  散列表的查找過程基本上和造表過程相同。一些關鍵碼可通過散列函數轉換的地址直接找到,另一些關鍵碼在散列函數得到的地址上產生了衝突,需要按處理衝突的方法進行查找。在介紹的三種處理衝突的方法中,產生衝突後的查找仍然是給定值與關鍵碼進行比較的過程。所以,對散列表查找效率的量度,依然用平均查找長度來衡量。
  查找過程中,關鍵碼的比較次數,取決於產生衝突的多少,產生的衝突少查找效率就高,產生的衝突多查找效率就低。因此,影響產生衝突多少的因素,也就是影響查找效率的因素。影響產生衝突多少有以下三個因素:
  1. 散列函數是否均勻;
  2. 處理衝突的方法;
  3. 散列表的裝填因子。
  散列表的裝填因子定義爲:α= 填入表中的元素個數 / 散列表的長度
  α是散列表裝滿程度的標誌因子。由於表長是定值,α與“填入表中的元素個數”成正比,所以,α越大,填入表中的元素較多,產生衝突的可能性就越大;α越小,填入表中的元素較少,產生衝突的可能性就越小。
  實際上,散列表的平均查找長度是裝填因子α的函數,只是不同處理衝突的方法有不同的函數。

  瞭解了hash基本定義,就不能不提到一些著名的hash算法,MD5 和 SHA-1 可以說是目前應用最廣泛的Hash算法,而它們都是以 MD4 爲基礎設計的。那麼他們都是什麼意思呢?
  這裏簡單說一下:
  (1) MD4 
  MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年設計的,MD 是 Message Digest 的縮寫。它適用在32位字長的處理器上用高速軟件實現--它是基於 32 位操作數的位操作來實現的。
  (2) MD5 
  MD5(RFC 1321)是 Rivest 於1991年對MD4的改進版本。它對輸入仍以512位分組,其輸出是4個32位字的級聯,與 MD4 相同。MD5比MD4來得複雜,並且速度較之要慢一點,但更安全,在抗分析和抗差分方面表現更好
  (3) SHA-1 及其他 
  SHA1是由NIST NSA設計爲同DSA一起使用的,它對長度小於264的輸入,產生長度爲160bit的散列值,因此抗窮舉(brute-force)性更好。SHA-1 設計時基於和MD4相同原理,並且模仿了該算法。
  那麼這些Hash算法到底有什麼用呢?
  Hash算法在信息安全方面的應用主要體現在以下的3個方面: 
  (1) 文件校驗 
  我們比較熟悉的校驗算法有奇偶校驗和CRC校驗,這2種校驗並沒有抗數據篡改的能力,它們一定程度上能檢測並糾正數據傳輸中的信道誤碼,但卻不能防止對數據的惡意破壞。 
  MD5 Hash算法的"數字指紋"特性,使它成爲目前應用最廣泛的一種文件完整性校驗和(Checksum)算法,不少Unix系統有提供計算md5 checksum的命令。
  (2) 數字簽名 
  Hash 算法也是現代密碼體系中的一個重要組成部分。由於非對稱算法的運算速度較慢,所以在數字簽名協議中,單向散列函數扮演了一個重要的角色。 對 Hash 值,又稱"數字摘要"進行數字簽名,在統計上可以認爲與對文件本身進行數字簽名是等效的。而且這樣的協議還有其他的優點。
  (3) 鑑權協議 
  如下的鑑權協議又被稱作挑戰--認證模式:在傳輸信道是可被偵聽,但不可被篡改的情況下,這是一種簡單而安全的方法。
  MD5、SHA1的破解:
  2004年8月17日,在美國加州聖芭芭拉召開的國際密碼大會上,山東大學王小云教授在國際會議上首次宣佈了她及她的研究小組近年來的研究成果——對MD5、HAVAL-128、MD4和RIPEMD等四個著名密碼算法的破譯結果。 次年二月宣佈破解SHA-1密碼。
 
       以上是一些關於hash及其相關的基本知識。那麼hash在emule裏面具體起到什麼作用呢?
  大家都知道emule是基於P2P ,它採用了"多源文件傳輸協議”(MFTP,Multisource FileTransfer Protocol)。在協議中,定義了一系列傳輸、壓縮和打包還有積分的標準,emule 對於每個文件都有md5-hash的算法設置,這使得該文件獨一無二,並且在整個網絡上都可以追蹤得到。
  MD5-Hash文件的數字文摘通過Hash函數計算得到。不管文件長度如何,它的Hash函數計算結果是一個固定長度的數字。與加密算法不同,這一個Hash算法是一個不可逆的單向函數。採用安全性高的Hash算法,如MD5、SHA時,兩個不同的文件幾乎不可能得到相同的Hash結果。因此,一旦文件被修改,就可檢測出來。
  當我們的文件放到emule裏面進行共享發佈的時候,emule會根據hash算法自動生成這個文件的hash值,他就是這個文件唯一的身份標誌,它包含了這個文件的基本信息,然後把它提交到所連接的服務器。當有他人想對這個文件提出下載請求的時候, 這個hash值可以讓他人知道他正在下載的文件是不是就是他所想要的。尤其是在文件的其他屬性被更改之後(如名稱等)這個值就更顯得重要。而且服務器還提供了這個文件當前所在的用戶的地址、端口等信息,這樣emule就知道到哪裏去下載了。
  一般來講我們要搜索一個文件,emule在得到了這個信息後,會向被添加的服務器發出請求,要求得到有相同hash值的文件。而服務器則返回持有這個文件的用戶信息。這樣我們的客戶端就可以直接的和擁有那個文件的用戶溝通,看看是不是可以從他那裏下載所需的文件。
  對於emule中文件的hash值是固定的,也是唯一的,它就相當於這個文件的信息摘要,無論這個文件在誰的機器上,它的hash值都是不變的,無論過了多長時間,這個值始終如一,當我們在進行文件的下載上傳過程中,emule都是通過這個值來確定文件。
  
那麼什麼是userhash呢?
  道理同上,當我們在第一次使用emule的時候,emule會自動生成一個值,這個值也是唯一的,它是我們在emule世界裏面的標誌,只要你不卸載,不刪除config,你的userhash值也就永遠不變,積分制度就是通過這個值在起作用,emule裏面的積分保存和身份識別,都是使用這個值,而和你的id和你的用戶名無關,你隨便怎麼改這些東西,你的userhash值都是不變的,這也充分保證了公平性。其實它也是一個信息摘要,只不過保存的不是文件信息,而是我們每個人的信息。
  
那麼什麼是hash文件呢?
  我們經常在emule日至裏面看到,emule正在hash文件,這裏就是利用了hash算法的文件校驗性這個功能了,其實這部分是一個非常複雜的過程,目前在ftp,bt等軟件裏面都是用的這個基本原理,emule裏面是採用文件分塊傳輸,這樣傳輸的每一塊都要進行對比校驗,如果錯誤則要進行重新下載,這期間這些相關信息寫入met文件,直到整個任務完成,這個時候part文件進行重新命名,然後使用move命令,把它傳送到incoming文件裏面,然後met文件自動刪除,所以我們有的時候會遇到hash文件失敗,就是指的是met裏面的信息出了錯誤不能夠和part文件匹配,另外有的時候開機也要瘋狂hash,有兩種情況一種是你在第一次使用,這個時候要hash提取所有文件信息,還有一種情況就是上一次你非法關機,那麼這個時候就是要進行排錯校驗了。

  關於hash的算法研究,一直是信息科學中的前沿,尤其在網絡技術普及的今天,它的重要性越來越突出,其實我們每天在網上進行的信息交流安全驗證,我們在使用的操作系統密鑰原理,裏面都有它的身影,特別對於那些研究信息安全有興趣的朋友,這更是一個打開信息世界的鑰匙,它在hack世界裏面也是一個研究的焦點。 
  現實中哈希函數是需要構造的,並且構造的好才能使用的好。 比特精靈中就使用了哈希函數,字符串哈希函數(著名的ELFhash算法):
  int ELFhash(char *key)
  { 
      unsigned long h=0;
     while(*key)
     {
        h=(h<<4)+*key++;
        unsigned long g=h&0Xf0000000L;
        if(g) h^=g>>24;
        h&=~g;
     }
     return h%MOD;
  }

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章