幾個問題（五）--------hash算法的實現原理，hashcode的實現原理

1. 引言
哈希表（Hash Table）的應用近兩年纔在NOI中出現，作爲一種高效的數據結構，它正在競賽中發揮着越來越重要的作用。
哈希表最大的優點，就是把數據的存儲和查找消耗的時間大大降低，幾乎可以看成是常數時間；而代價僅僅是消耗比較多的內存。然而在當前可利用內存越來越多的情況下，用空間換時間的做法是值得的。另外，編碼比較容易也是它的特點之一。
哈希表又叫做散列表，分爲“開散列” 和“閉散列”。考慮到競賽時多數人通常避免使用動態存儲結構，本文中的“哈希表”僅指“閉散列”，關於其他方面讀者可參閱其他書籍。

2. 基礎操作
2.1 基本原理
我們使用一個下標範圍比較大的數組來存儲元素。可以設計一個函數（哈希函數，也叫做散列函數），使得每個元素的關鍵字都與一個函數值（即數組下標）相對應，於是用這個數組單元來存儲這個元素；也可以簡單的理解爲，按照關鍵字爲每一個元素“分類”，然後將這個元素存儲在相應“類”所對應的地方。
但是，不能夠保證每個元素的關鍵字與函數值是一一對應的，因此極有可能出現對於不同的元素，卻計算出了相同的函數值，這樣就產生了“衝突”，換句話說，就是把不同的元素分在了相同的“類”之中。後面我們將看到一種解決“衝突”的簡便做法。
總的來說，“直接定址”與“解決衝突”是哈希表的兩大特點。

2.2 函數構造
       構造函數的常用方法（下面爲了敘述簡潔，設 h(k) 表示關鍵字爲 k 的元素所對應的函數值）：
a) 除餘法：
       選擇一個適當的正整數 p ，令 h(k ) = k mod p ，這裏， p 如果選取的是比較大的素數，效果比較好。而且此法非常容易實現，因此是最常用的方法。
b) 數字選擇法：
       如果關鍵字的位數比較多，超過長整型範圍而無法直接運算，可以選擇其中數字分佈比較均勻的若干位，所組成的新的值作爲關鍵字或者直接作爲函數值。

2.3 衝突處理
線性重新散列技術易於實現且可以較好的達到目的。令數組元素個數爲 S ，則當 h(k) 已經存儲了元素的時候，依次探查 (h(k)+i) mod S , i=1,2,3…… ，直到找到空的存儲單元爲止（或者從頭到尾掃描一圈仍未發現空單元，這就是哈希表已經滿了，發生了錯誤。當然這是可以通過擴大數組範圍避免的）。

2.4 支持運算
哈希表支持的運算主要有：初始化(makenull)、哈希函數值的運算(h(x))、插入元素(insert)、查找元素(member)。設插入的元素的關鍵字爲 x ，A 爲存儲的數組。初始化比較容易，例如：
const empty=maxlongint; // 用非常大的整數代表這個位置沒有存儲元素
p=9997; // 表的大小
procedure makenull;
var i:integer;
begin
for i:=0 to p-1 do
A[i]:=empty;
End;
哈希函數值的運算根據函數的不同而變化，例如除餘法的一個例子：
function h(x:longint):Integer;
begin
h:= x mod p;
end;
我們注意到，插入和查找首先都需要對這個元素定位，即如果這個元素若存在，它應該存儲在什麼位置，因此加入一個定位的函數 locate
function locate(x:longint):integer;
var orig,i:integer;
begin
orig:=h(x);
i:=0;
while (i<S)and(A[(orig+i)mod S]<>x)and(A[(orig+i)mod S]<>empty) do
inc(i);
//當這個循環停下來時，要麼找到一個空的存儲單元，要麼找到這個元
//素存儲的單元，要麼表已經滿了
locate:=(orig+i) mod S;
end;
插入元素
procedure insert(x:longint);
var posi:integer;
begin
posi:=locate(x); //定位函數的返回值
if A[posi]=empty then A[posi]:=x
else error; //error 即爲發生了錯誤，當然這是可以避免的
end;
查找元素是否已經在表中
procedure member(x:longint):boolean;
var posi:integer;
begin
posi:=locate(x);
if A[posi]=x then member:=true
else member:=false;
end;
這些就是建立在哈希表上的常用基本運算。

初步結論：
當數據規模接近哈希表上界或者下界的時候，哈希表完全不能夠體現高效的特點，甚至還不如一般算法。但是如果規模在中央，它高效的特點可以充分體現。試驗表明當元素充滿哈希表的 90% 的時候，效率就已經開始明顯下降。這就給了我們提示：如果確定使用哈希表，應該儘量使數組開大，但對最太大的數組進行操作也比較費時間，需要找到一個平衡點。通常使它的容量至少是題目最大需求的 120% ，效果比較好（這個僅僅是經驗，沒有嚴格證明）。

4. 應用舉例
4.1 應用的簡單原則
       什麼時候適合應用哈希表呢？如果發現解決這個問題時經常要詢問：“某個元素是否在已知集合中？”，也就是需要高效的數據存儲和查找，則使用哈希表是最好不過的了！那麼，在應用哈希表的過程中，值得注意的是什麼呢？
哈希函數的設計很重要。一個不好的哈希函數，就是指造成很多衝突的情況，從前面的例子已經可以看出來，解決衝突會浪費掉大量時間，因此我們的目標就是盡力避免衝突。前面提到，在使用“除餘法”的時候，h(k)=k mod p ，p 最好是一個大素數。這就是爲了盡力避免衝突。爲什麼呢？假設 p=1000 ，則哈希函數分類的標準實際上就變成了按照末三位數分類，這樣最多1000類，衝突會很多。一般地說，如果 p 的約數越多，那麼衝突的機率就越大。
簡單的證明：假設 p 是一個有較多約數的數，同時在數據中存在 q 滿足 **(p,q)=d >1 ，即有 p=a*d , q=b*d, 則有 q mod p= q – p* [q div p] =q – p*[b div a] . ① 其中 [b div a ] 的取值範圍是不會超過 [0，b] 的正整數。也就是說， [b div a] 的值只有 b+1 種可能，而 p 是一個預先確定的數。因此 ① 式的值就只有 b+1 種可能了。這樣，雖然mod 運算之後的餘數仍然在 [0，p-1] 內，但是它的取值僅限於 ① 可能取到的那些值。也就是說餘數的分佈變得不均勻了。容易看出， p 的約數越多，發生這種餘數分佈不均勻的情況就越頻繁，衝突的機率越高。而素數的約數是最少的，因此我們選用大素數。記住“素數是我們的得力助手”。
       另一方面，一味的追求低衝突率也不好。理論上，是可以設計出一個幾乎完美，幾乎沒有衝突的函數的。然而，這樣做顯然不值得，因爲這樣的函數設計很浪費時間而且編碼一定很複雜，與其花費這麼大的精力去設計函數，還不如用一個雖然衝突多一些但是編碼簡單的函數。因此，函數還需要易於編碼，即易於實現。
       綜上所述，設計一個好的哈希函數是很關鍵的。而“好”的標準，就是較低的衝突率和易於實現。
       另外，使用哈希表並不是記住了前面的基本操作就能以不變應萬變的。有的時候，需要按照題目的要求對哈希表的結構作一些改進。往往一些簡單的改進就可以帶來巨大的方便。
這些只是一般原則，真正遇到試題的時候實際情況千變萬化，需要具體問題具體分析纔行。

本文來自CSDN博客，轉載請標明出處：http://blog.csdn.net/ilibaba/archive/2009/03/05/3960142.aspx

幾個問題（五）--------hash算法的實現原理，hashcode的實現原理

Win10 LTSC 2019 安裝後的一些步驟

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

幾個問題（五）--------hash算法的實現原理，hashcode的實現原理

幾個問題（十二）------數據庫連接池的實現原理，請求怎麼樣去獲取連接，關閉連接時，連接池是銷

遍歷Map內容效率問題

幾個問題（九）-------序列化的作用，應用場景，除了網路傳輸

幾個問題（十）-------spring的IOC、AOP的使用場景

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結