哈希算法應用場景

哈希算法

       將任意長度的二進制值串映射爲固定長度的二進制值串，這個映射的規則就是哈希算法，而通過原始數據映射之後得到的二進制值串就是哈希值。
       優秀哈希算法需要具備的
       1.從哈希值不能方向推導出原始數據（所以也叫做單向哈希算法）
       2.對傳入的數據非常敏感，哪怕原始數據只修改了一個Bit，最後得到的哈希值也大不相同
      &nbsp3;.散列衝突的概率要很小，對於不同的原始數據，哈希值相同的概率非常小，
       4.哈希算法的執行效率要儘量高效，針對較長的文本，也能快速計算出哈希值。

應用場景

       應用一：安全加密
       最常用於加密的哈希算法是MD5(MD5消息摘要算法)和SHA(安全散列算法)
       對於加密的哈希算法來說，有兩點格外重要。第一點就是很難根據哈希值方向推導出原始數據，第二點舊時散列衝突的概率要很小

應用二：唯一標識
將信息存唯一標識，然後存進散列表中這唯一標識，通過哈希算法計算出數據的唯一標識，從而用於高效檢索數據。

應用三：數據校驗
利用哈希算法對輸入數據敏感的特點，可以對數據取哈希值，從而高效校驗數據是否被篡改過。

應用四：散列函數
散列函數中用到的哈希算法更加關注散列後的值能不能平均分佈，以及散列函數的執行快慢。

       應用五：負載均衡
       1.1.需求
       如何實現一個會話粘滯（session sticky）的負載均衡算法？也就是說，在一次會話中的所有請求都路由到同一個服務器上。
       1.2.解決方案
        通過哈希算法對客戶端IP或會話ID計算哈希值，將取得的哈希值與服務器列表的大小進行取模運算，最終得到的值就是應該被路由到的服務器編號。這樣，就可以把同一個IP過來的請求都路由到同一個後端服務器上。

       應用六：數據分片
       如何統計“搜索關鍵詞”出現的次數？
       ①需求描述
        假如我們有1T的日誌文件，這裏面記錄了用戶的搜索關鍵詞，我們想要快速統計出每個關鍵詞被搜索的次數，該怎麼做呢？
       ②問題分析
        這個問題有兩個難點，第一個是搜索的日子很大，沒辦法放到一臺機器的內存中。第二個是隻用一臺機器來處理這麼巨大的數據，處理時間會很長。
       ③解決方案
       先對數據進行分片，然後採用多臺（比如n臺）機器進行處理。具體做法：從搜索記錄的日誌文件中依次讀取每個關鍵詞，並通過哈希函數計算該關鍵詞的哈希值，然後跟機器的臺數n取模，最終得到值就是該關鍵詞應該被分到的機器編號，這樣相同的關鍵詞一定會被分配到同一臺機器上，數據分配完成後，由多臺機器並行進行統計，最後合併起來就是最終結果。
        實際上，這裏的處理過程也是 MapReduce 的基本設計思想。
       2.如何快速判斷圖片是否存在圖庫中？
       ①需求描述
        假設現在我們的圖庫中有1億張圖片，如何快速判斷圖片是否在圖庫中？基本方式是給每個圖片去唯一表示（或者信息摘要），然後構建散列表。
       ②問題分析
       很顯然，在單臺機器上構建散列表示行不通的，因爲單臺機器的內存有限，而1億張圖片構建散列表遠遠超過了單臺機器的內存上限。
       ③解決方案
        準備n臺機器，讓每臺機器只維護一部分圖片對應的散列表。我們每次從圖庫中讀取一個圖片，計算唯一標識，然後與機器個數n求餘取模，得到的值就對應要分配的機器編號，然後將這個圖片的唯一表示和圖片路徑發往對應的機器構建散列表。
       當我們要判斷一個圖片是否在圖庫中時，我們通過同樣的哈希算法，計算這個圖片的唯一表示，然後與機器個數n求餘取模。假設得到的值是k，那就去編號爲k的機器構建的散列表中查找。
        如何估算給1億張圖片構建散列表大約需要多少臺機器？
        散列表中每個數據單元包含兩個信息，哈希值和圖片文件的路徑。假設我們通過 MD5 來計算哈希值，那長度就是 128 比特，也就是 16 字節。文件路徑長度的上限是 256 字節，我們可以假設平均長度是 128 字節。如果我們用鏈表法來解決衝突，那還需要存儲指針，指針只佔用 8 字節。所以，散列表中每個數據單元就佔用 152 字節（這裏只是估算，並不準確）。
        假設一臺機器的內存大小爲 2GB，散列表的裝載因子爲 0.75，那一臺機器可以給大約 1000 萬（2GB*0.75/152）張圖片構建散列表。所以，如果要對 1 億張圖片構建索引，需要大約十幾臺機器。在工程中，這種估算還是很重要的，能讓我們事先對需要投入的資源、資金有個大概的瞭解，能更好地評估解決方案的可行性。
        實際上，針對這種海量數據的處理問題，我們都可以採用多機分佈式處理。藉助這種分片的思路，可以突破單機內存、CPU 等資源的限制。

       應用七：分佈式存儲
       1.什麼是分佈式存儲？
        分佈式存儲就是將數據存儲在多臺機器上並提供高效的讀取、寫入支持。那如何決定將哪個數據放到哪個機器上呢？可以利用數據分片的思想，即通過哈希算法對數據取哈希值，然後對機器個數取模，這個最終值就是應該存儲的緩存機器編號。
        2.遇到的問題是什麼？
        如果數據持續增多，原來的機器數量已經不能滿足需求，就需要增加機器，這時就麻煩了，因爲所有的數據都需要重新哈希值進行再次分配。這就相當於，緩存中的數據一下子都失效了，所有的數據請求都會穿透緩存，直接去請求數據庫。這樣就可能發生雪崩效應，壓垮數據庫。
       3.解決方案是什麼？
        ①這時，需要一種方法，使得新加入一個機器後，並不需要做大量的數據搬移。那就是在分佈式系統中應用非常廣泛的一致性哈希算法。
        ②一致性哈希算法的基本思想是什麼呢？爲了說清楚這個問題，我們假設有k個機器，數據的哈希值範圍是[0-MAX]，我們將整個範圍劃分成m個小區間（m遠大於k），每個機器複雜m/k個小區間。當有新機器加入的時候，我們就將某幾個小區間的數據，從原來的機器中搬移到新的機器中。這樣，既不用全部重新哈希、搬移數據，也保持了各個機器上數據量的均衡。

哈希算法應用場景

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

二分查找及變體

字符串模式匹配：BF算法和RK算法

停不下來使用的散列表

記隨筆

哈希算法應用場景

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結