java的Hashtables

問題是這樣的:假設這有一個各種字母組成的字符串,假設這還有另外一個字符串,而且這個字符串裏的字母數相對少一些。從算法是講,什麼方法能最快的查出所有小字符串裏的字母在大字符串裏都有?

一個最佳的算法,只需要O(n+m)次操作。方法就是,對第一個字串進行輪詢,把其中的每個字母都放入一個Hashtable裏(成本是O(n)或16次操作)。然後輪詢第二個字串,在Hashtable裏查詢每個字母,看能否找到。如果找不到,說明沒有匹配成功。這將消耗掉8次操作 —— 這樣兩項操作加起來一共只有24次。不錯吧,比前面兩種方案都要好。

如果這樣呢 —— 假設我們有一個一定個數的字母組成字串 —— 我給每個字母分配一個素數,從2開始,往後類推。這樣A將會是2,B將會是3,C將會是5,等等。現在我遍歷第一個字串,把每個字母代表的素數相乘。你最終會得到一個很大的整數,對吧?然後 —— 輪詢第二個字符串,用每個字母除它。如果除的結果有餘數,這說明有不匹配的字母。如果整個過程中沒有餘數,你應該知道它是第一個字串恰好的子集了。



Hashtables(哈希表)在計算機領域中已不是一個新概念了。它們是用來加快計算機的處理速度的,用當今的標準來處理,速度非常慢,而它們可以讓你在查詢許多數據條目時,很快地找到一個特殊的條目。儘管現代的機器速度已快了幾千倍,但是爲了得到應用程序的最佳性能,hashtables仍然是個很有用的方法。


   設想一下,你有一個包含約一千條記錄的數據文件,比如一個小企業的客戶記錄,還有一個程序,它把記錄讀到內存中進行處理。每個記錄包含一個唯一的五位數的客戶ID號、客戶名字、地址、帳戶結餘等等。假設記錄不是按客戶ID號順序分類的,所以,如果程序要將客戶ID號作爲“key” 來查找一個特殊的客戶記錄,唯一的查找方法就是連續地搜索每個記錄。有時侯,它會很快找到你需要的記錄;但有時侯,在程序找到你需要的記錄前,它幾乎已搜索到了最後一條記錄。如果要在1,000條記錄中搜索,那麼查找任何一條記錄都需要程序平均查覈500.5 ((1000 + 1 )/2)條記錄。如果你常需要查找數據,你應該需要一個更快的方法來找到一條記錄。 

        一種加快搜索的方法就是把記錄分成幾段,這樣,你就不用搜索一個很大的列表了,而是搜索幾個短的列表。對於我們數字式的客戶ID號,你可以建10個列表,以0開頭的ID號組成一個列表,以1開頭的ID號組成一個列表,依此類推。那麼要查找客戶ID號38016,你只需要搜索以3開頭的列表就行了。如果有1,000條記錄,每個列表的平均長度爲100(1,000條記錄被分成10個列表),那麼搜索一條記錄的平均比較次數就降到了約50(見圖1)。
當然,如果約十分之一的客戶號是以0開頭的,另外十分之一是以1開頭的,等等,那麼這種方法會很適合。如果90%的客戶號以0開頭,那麼那個列表就會有900條記錄,每次查找平均需要進行450次比較。另外,程序需要執行的搜索有90%都是針對以0開頭的號碼的。因此,平均比較數就大大超過簡單數學運算的範圍了。
   如果我們可以按這樣一種方式在我們的列表中分配記錄,情況就會好一些,即每個列表約有相同條目的記錄,而不管鍵值中數字的分佈。我們需要一種方法能夠把客戶號碼混合到一起並更好地分佈結果。例如,我們可以取號碼中的每位數,乘以某個大的數(隨着數字位置的不同而不同), 然後將結果相加產生一個總數,把這個數除以10,並將餘數作爲索引值(index)(除數相同的分到一組)。當讀入記錄時,程序在客戶號碼上運行這個哈希(hash) 函數來確定記錄屬於哪個列表。當用戶需要查詢時,將同一個哈希函數作爲一個“key”用於客戶號碼,這樣就可以搜索正確的列表了。 像這樣的一個數據結構就稱爲一個哈希表(hashtable)。

Java中的Hashtables
   Java包含兩個類,java.util.Hashtable 和java.util.HashMap,它們提供了一個多種用途的hashtable機制。這兩個類很相似,通常提供相同的公有接口。但它們的確有一些重要的不同點,我在後面會講到。 
Hashtable和HashMap對象可以讓你把一個key和一個value結合起來,並用put() 方法把這對key/value輸入到表中。然後你可以通過調用get()方法,把key作爲參數來得到這個value(值)。只要滿足兩個基本的要求,key和value可以是任何對象。注意,因爲key和value必須是對象,所以原始類型(primitive types)必須通過運用諸如Integer(int)的方法轉換成對象。
   爲了將一個特定類的對象用做一個key,這個類必須提供兩個方法,equals() 和 hashCode()。這兩個方法在java.lang.Object中,所以所有的類都可以繼承這兩個方法;但是,這兩個方法在Object類中的實現一般沒什麼用,所以你通常需要自己重載這兩個方法。Equals()方法把它的對象同另一個對象進行比較,如果這兩個對象代表相同的信息,則返回true。該方法也查看並確保這兩個對象屬於相同的類。如果兩個參照對象是完全一樣的對象,Object.equals()返回true,這就說明了爲什麼這個方法通常不是很適合的原因。在大多數情況下,你需要一個方法來一個字段一個字段地進行比較,所以我們認爲代表相同數據的不同對象是相等的。 
   HashCode()方法通過運用對象的內容執行一個哈希函數來生成一個int值。Hashtable和HashMap用這個值來算出一對key/value位於哪個bucket(哈希元)(或列表)中。作爲例子,我們可以查看一下String 類,因爲它有自己的方法來實現這兩個方法。String.equals()對兩個String對象一個字符一個字符地進行比較,如果字符串是相同的,則返回true:
String myName = "Einstein";
// The following test is 
// always true
if ( myName.equals("Einstein") )
{ ...
   String.hashCode()在一個字符串上運行哈希函數。字符串中每個字符的數字代碼都乘以31,結果取決於字符串中字符的位置。然後將這些計算的結果相加,得到一個總數。這個過程似乎很複雜,但是它確保能夠更好地分佈值。它也證明了你在開發你自己的hashCode()方法時,能夠走多遠,確信結果是唯一的。
例如,假設我要用一個hashtable來實現一個書的目錄,把書的ISBN號碼作爲搜索鍵來進行搜索。我可以用String類來承載細節,並準備好了equals()和hashCode()方法。我們可以用put()方法添加成對的key/value到hashtable中。
Put()方法接受兩個參數,它們都屬於Object類型。第一個參數是key;第二個參數是value。Put()方法調用key的hashCode()方法,用表中的列表數來除這個結果。把餘數作爲索引值來確定該條記錄添加到哪個列表中。注意,key在表中是唯一的;如果你用一個已經存在的key來調用put(),匹配的條目就被修改了,因此它參照的是一個新的值,而舊的值被返回了(當key在表中不存在時,put()返回空值)。要讀取表中的一個值,我們把搜索鍵用於get()方法。它返回一個轉換到正確類型的Object參照:
BookRecord br =(BookRecord)isbnTable.get("0-345-40946-9");
System.out.println("Author: " + br.author+ " Title: " + br.title);

   另一個有用的方法是remove(),其用法同get()幾乎一樣,它把條目從表中刪除,並返回給調用程序。

你自己的類
   如果你想把一個原始類型用做一個key,你必須創建一個同等類型的對象。例如,如果你想用一個整數key,你應該用構造器Integer(int)從整數中生成一個對象。所有的封裝類如Integer、Float和Boolean都把原始值看做是對象,它們重載了equals()和hashCode()方法,因此,它們可以被用做key。JDK中提供的許多其它的類也是這樣的(甚至Hashtable和HashMap類都實現它們自己的equals()和hashCode()方法),但你把任何類的對象用做hashtable keys前,應該查看文件。查看類的來源,看看equals()和hashCode()是如何實現的,也很有必要。例如,Byte、Character、Short和Integer都返回所代表的整數值作爲哈希碼。這可能適合,也可能不適合你的需求。

    如果你想創建一個hashtable,這個hashtable運用你自己定義的一個類的對象作爲key,那麼你應該確信這個類的equals()和hashCode()方法提供有用的值。首先查看你擴展的類,確定它的實現是否滿足你的需求。如果沒有,你應該重載方法。

    任何equals()方法的基本設計約束是,如果傳遞給它的對象屬於同一個類,而且它的數據字段設定爲表示同樣數據的值,那麼它就應該返回true。你也應該確信,如果傳遞一個空的參數給該方法,那麼你的代碼返回false:
public boolean equals(Object o){
if ( (o == null)|| !(o instanceof myClass)){
return false;
}

// Now compare data fields...

    另外,在設計一個hashCode()方法時,應該記住一些規則。首先,該方法必須爲一個特定的對象返回相同的值,而不管這個方法被調用了多少次(當然,只要對象的內容在調用之間沒有改變,在將一個對象用做一個hashtable的key時,應該避免這一點)。第二,如果由你的equals()方法定義的兩個對象是相等的,那麼它們也必須生成相同的哈希碼。第三,這更像是一個方針,而不是一個原則,你應該設法設計方法,使它爲不同的對象內容生成不同的結果。如果偶爾不同的對象正好生成了相同的哈希碼,這也不要緊。但是,如果該方法只能返回範圍在1到10的值,那麼只能用10個列表,而不管在hashtable中有多少個列表。

    在設計equals()和hashCode()時,另一個要記住的因素是性能問題。每次調用put()或get(),都包括調用hashCode()來查找正確的列表,當get()掃描列表來查找key時,它爲列表中的每個元素調用equals()。實現這些方法使它們儘可能快而有效地運行,尤其當你打算使你的類公開可用時,因爲其它的用戶可能想在執行速度很重要的情況下,在高性能的應用程序中運用你的類。

Hashtable性能
    影響hashtable功效的主要因素就是表中列表的平均長度,因爲平均搜索時間與這個平均長度直接相關。很顯然,要減小平均長度,你必須增加hashtable中列表的數量;如果列表數量非常大,以至於大多數列表或所有列表只包含一條記錄,你就會獲得最佳的搜索效率。然而,這樣做可能太過分了。如果你的hashtable的列表數遠遠多於數據條目,那你就沒有必要做這樣的內存花費了,而在一些情況下,人們也不可能接受這樣的做法。
在我們前面的例子中,我們預先知道我們有多少條記錄1,000。知道這點後,我們就可以決定我們的hashtable應該包含多少個列表,以便達成搜索速度和內存使用效率之間最好的折衷方式。然而,在許多情況下,你預先不知道你要處理多少條記錄;數據被讀取的文件可能會不斷擴大,或者記錄的數量可能一天一天地發生很大的變化。
隨着條目的增加,Hashtable和HashMap類通過動態地擴展表來處理這個問題。這兩個類都有接受表中列表最初數量的構造器,和一個作爲參數的負載係數(load factor):
public Hashtable(int initialCapacity,float loadFactor)

public HashMap(int initialCapacity,float loadFactor)

    將這兩個數相乘計算出一個臨界值。每次給哈希表添加一個新的條目時,計數就被更新,當計數超過臨界值時,表被重新設置(rehash)。(列表數量增加到以前數量的兩倍加1,所有的條目轉移到正確的列表中。)缺省的構造器設定最初的容量爲11,負載係數是0.75,所以臨界值是8。當第九條記錄被添加到表中時,就重新調整哈希表,使其有23個列表,新的臨界值將是17(23*0.75的整數部分)。你可以看到,負載係數是哈希表中平均列表數量的上限,這就意味着,在缺省情況下,哈希表很少會有許多包含不只一條記錄的列表。比較我們最初的例子,在那個例子中,我們有1,000條記錄,分佈在10個列表中。如果我們用缺省值,這個表將會擴展到含有1,500多個列表。但你可以控制這點。如果用負載係數相乘的列表數量大於你處理的條目數,那麼表永遠不會重製,所以我們可以仿效下面的例子:// Table will not rehash until it
// has 1,100 entries (10*110):
Hashtable myHashTable = new Hashtable(10, 110.0F);

    你可能不想這麼做,除非你沒有爲空的列表節省內存,而且不介意額外的搜索時間,這可能在嵌入系統中會出現這種情況。然而,這種方法可能很有用,因爲重新設置很佔用計算時間,而這種方法可以保證永遠不會發生重新設置這種情況。注意,雖然調用put()可以使表增大(列表數量增加),調用remove()不會有相反的結果。所以,如果你有一個大的表,而且從中刪除了大部分條目,結果你會有一個大的但是大部分是空的表。
Hashtable和HashMap
    Hashtable和HashMap類有三個重要的不同之處。第一個不同主要是歷史原因。Hashtable是基於陳舊的Dictionary類的,HashMap是Java 1.2引進的Map接口的一個實現。
也許最重要的不同是Hashtable的方法是同步的,而HashMapu方法不是。這就意味着,雖然你可以不用採取任何特殊的行爲就可以在一個多線程的應用程序中用一個Hashtable,但你必須同樣地爲一個HashMap提供外同步。一個方便的方法就是利用Collections類的靜態的synchronizedMap()方法,它創建一個線程安全的Map對象,並把它作爲一個封裝的對象來返回。這個對象的方法可以讓你同步訪問潛在的HashMap。這麼做的結果就是當你不需要同步時,你不能切斷Hashtable中的同步(比如在一個單線程的應用程序中),而且同步增加了很多處理費用。第三點不同是,只有HashMap可以讓你將空值作爲一個表的條目的key或value。HashMap中只有一條記錄可以是一個空的key,但任意數量的條目可以是空的value。這就是說,如果在表中沒有發現搜索鍵,或者如果發現了搜索鍵,但它是一個空的值,那麼get()將返回null。如果有必要,用containKey()方法來區別這兩種情況。

    一些資料建議,當需要同步時,用Hashtable,反之用HashMap。但是,因爲在需要時,HashMap可以被同步,HashMap的功能比Hashtable的功能更多,而且它不是基於一個陳舊的類的,所以有人認爲,在各種情況下,HashMap都優先於Hashtable。

關於Properties
    有時侯,你可能想用一個hashtable來映射key的字符串到value的字符串。DOS、Windows和Unix中的環境字符串就有一些例子,如key的字符串PATH被映射到value的字符串C:\WINDOWS;C:\WINDOWS\SYSTEM。Hashtables是表示這些的一個簡單的方法,但Java提供了另外一種方法。
    Java.util.Properties類是Hashtable的一個子類,設計用於String keys和values。Properties對象的用法同Hashtable的用法相象,但是類增加了兩個節省時間的方法,你應該知道。Store()方法把一個Properties對象的內容以一種可讀的形式保存到一個文件中。Load()方法正好相反,用來讀取文件,並設定Properties對象來包含keys和values。注意,因爲Properties擴展了Hashtable,你可以用超類的put()方法來添加不是String對象的keys和values。這是不可取的。另外,如果你將store()用於一個不包含String對象的Properties對象,store()將失敗。作爲put()和get()的替代,你應該用setProperty()和getProperty(),它們用String參數。好了,我希望你現在可以知道如何用hashtables來加速你的處理了。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章