外部排序

原創

2020-03-11 13:53

1、應用場景

（1）問題：

給你一個包含20億個int類型整數的文件，計算機的內存只有2GB，怎麼給它們排序？一個int數佔4個字節，20個億需要80億字節，大概佔用8GB的內存，而計算機只有2GB的內存，數據都裝不下！

（2）解決方案：

可以把8GB分割成4個2GB的數據來排，然後在把他們拼湊回去。如下圖：

排序的時候可以選擇快速排序或歸併排序等算法。爲了方便，我們把排序好的2G有序數據稱爲有序子串。接着把兩個小的有序子串合併成一個大的有序子串。

注意:讀取的時候是每次讀取一個int數，通過比較之後再輸出。

按照這個方法來回合併，總共經過三次合併之後就可以得到8G的有序子串。

2、外排序二路外排序

我們假設需要排序的int數有12個，內存一次只能裝下3個int數。

接下來把12個數據分成4份，然後排序成有序子串：

然後把子串進行兩兩合併：

輸出哪個元素就在那個元素所在的有序子串再次讀入一個元素：

繼續

重複直到合併成一個包含6個int有序子串：

再把兩個包含6個int的有序子串合併成一個包含12個int數據的最終有序子串：

3、優化策略

（1）分析

因爲硬盤的讀寫速度比內存要慢的多，按照以上這種方法，每個數據都從硬盤讀了三次，寫了三次，要花很多時間。

解釋下：例如對於數據2，我們把無序的12個數據分成有序的4個子串需要讀寫各一次，把2份3個有序子串合併成6個有序子串讀寫各一次；把2份6個有序子串合併從12個有序子串讀寫各一次，一共需要讀寫各3次。

在進行有序子串合併的時候，不採取兩兩合併的方法，而是可以3個子串，或4個子串一起來合併。

（2）多路歸併

爲了方便講解，我們假設內存一共可以裝4個int型數據。

剛纔我們是採取兩兩合併的方式，現在我們可以採取4個有序子串一起合併的方式，這樣的話，每個數據從硬盤讀寫的次數各需要2次就可以了。如圖：

4個有序子串的合併，叫4路歸併。如果是n個有序子串的合併，就把它稱爲n路歸併。n並非越大越好。

（3）置換選擇算法

n不是越大越好，那麼我們可以想辦法減少有序子串的總個數。這樣，也能減少數據從硬盤讀寫的次數。

以前面的12個無序數據爲例：

例如我們可以從12個數據讀取3個存到內存中，然後從內存中選出最小的那個數放進子串p1裏；之後再從剩餘的9個數據讀取一個放到內存中，然後再從內存中選出一個數放進子串p1裏，這個數必須滿足比p1中的其他數大，且在內存中儘量小。這樣一直重複，直到內存中的數都比p1中的數小，這時p1子串存放結束，繼續來p2子串的存放，例如（這時假設內存只能存放3個int型數據）：

讀入3個到內存中，且選出一個最小的到子串p1：

從內存中再次讀取一個元素86：

從內存中再次讀取一個元素3：

從內存中再次讀取一個元素24：

從內存中再次讀取一個元素8：

這個時候已經沒有符合要求的數了，且內存已滿，進而用p2子串來存放，以此類推。

通過這種方法，p1子串存放了4個數據，而原來的那種方法p1子串只能存放3個數據。

我們要如何從內存中選出這個目的數呢？難道每次都把內存中的數據進行排序，然後再逐個比較選擇嗎？其實我們可以構建一個最小堆來幫助我們選擇目的數。具體如下：

從12個數據中讀取3個數據，構建一個最小堆，然後從堆頂選擇一個數寫入到p1中。之後再從剩餘的9個數中讀取一個數，如果這個數比剛纔那個寫入到p1中的數大，則把這個數插入到最小堆中，重新調整最小堆結構，然後在堆頂選一個數寫入到p1中。否則，把這個數暫放在一邊，暫時不處理。之後一樣需要調整堆結構，從堆頂選擇一個數寫入到p1中。

這裏說明一下，那個被放在一邊的數是不能在放入p1中的了，因爲它一定比p1中的數都要小，所以它會放在下一個子串中。如下圖所示：

從12個數據中讀取3個數據：

構建最小堆，且選出目標數：

讀入下一個數86：

讀入下一個數3，比70小，暫放一邊，不加入堆結構中：

讀入下一個數據24，比81小，不加入堆結構：

讀入下一個數據8，比86小，不加入堆結構。此時p1已經完成了，把那些剛纔暫放一邊的數重新構成一個堆，繼續p2的存放：

以此類推…最後生成的p2如下：

這樣子的話，最後只生成了2個有序子串，我們把這種方法稱之爲置換選擇。按照這種方法，最好的情況下，所有數據只生成一個有序子串；最壞的情況下，和原來沒采取置換選擇算法一樣，還是4個子串。

如果內存可以容納n個元素的話，那麼平均每個子串的長度爲2m，也就是說，使用置換選擇算法我們可以減少一半的子串數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

劍指Offer-在排序數組中查找數字 I

46.在排序數組中查找數字 I 統計一個數字在排序數組中出現的次數。示例 1: 輸入: nums = [5,7,7,8,8,10], target = 8 輸出: 2 示例 2: 輸入: nums = [5,7,7,8,8,

2020-07-08 12:20:23

LeetCode-452. 用最少數量的箭引爆氣球

LeetCode-452. 用最少數量的箭引爆氣球在二維空間中有許多球形的氣球。對於每個氣球，提供的輸入是水平方向上，氣球直徑的開始和結束座標。由於它是水平的，所以y座標並不重要，因此只要知道開始和結束的x座標就足夠了。開始座標

2020-07-08 12:20:23

LeetCode-680. 驗證迴文字符串

LeetCode-680. 驗證迴文字符串給定一個非空字符串 s，最多刪除一個字符。判斷是否能成爲迴文字符串。示例 1: 輸入: "aba" 輸出: True 示例 2: 輸入: "abca" 輸出: True 解釋: 你可

2020-07-08 12:20:23

基本數據結構——線性結構（列表/無序表）

1.什麼是列表（List）? 一個數據項按照相對位置存放的數據集。特別的，被稱爲“無序表(unordered list)”，其中數據項只按照存放位置來索引，如第1個、第2個…、最後一個等。如一個考試分數的集合“54,26,93,

weixin_38324954

2020-07-08 11:06:53

算法複雜度評價指標（大o表示法）

大O表示法（1）常見的大o數量級函數（2）其他算法複雜度表示法基本操作數量函數T(n)的精確值並不是特別重要，重要的是Tn(n)中起決定性因素的主導部分。用動態的眼光看，就是當問題規模增大的時候，T(n)中的一些部分會蓋過其他部

weixin_38324954

2020-07-08 11:06:52

“變位詞”判斷問題及算法複雜度

解法1 逐字檢查解法思路：將詞1中的字符逐個到詞2中檢查是否存在，存在就打勾標記（防止重複檢查）。如果每個字符都能找到，則兩個詞是變位詞。只要有一個字符找不到，就不是變位詞。實現打勾標記：將詞2對應字符設爲None,由於

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（有序表）

1. 什麼是有序表（OrderedList）有序表是一種數據項依照其某可比性質（如整數大小、字母表先後）來決定在列表中的位置。越“小”的數據項越靠近列表的頭，越靠“前”。 2.抽象數據類型有序表（OrderedList）定義的

weixin_38324954

2020-07-08 11:06:52

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級 1.對比list和dict操作 2.list列表數據類型常用操作性能 (1)按索引取值和賦值（v=a[i],a[i]=v）由於列表的隨機訪問特性

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（棧）

1.什麼是線性結構線性結構是一種有序數據項的集合，其中每個數據項都有唯一的前驅和後繼（除了第一個沒有前驅，最後一個沒有後繼）。新的數據項加入到數據集中時，只會加入到原有某個數據項之前或之後。具有這種性質的數據集，就稱爲線性結構。

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（隊列、雙端隊列）

1. 什麼是隊列？隊列是一種有次序的數據集合，其特徵是新數據項的添加總髮生在一端（通常稱爲“尾端”），而現存數據項的移除總髮生在另一端（通常稱爲“首front”端）。新加入的數據項必須在數據集末尾等待，而等待時間最長的數據項則

weixin_38324954

2020-07-08 11:06:52

遞歸(Recursion)及其應用

1. 什麼是遞歸遞歸是一種解決問題的方法，其精髓在於將問題分解爲規模更小的相同問題，持續分解，直到問題規模小到可以用非常簡單直接的方式來解決。遞歸問題分解方式非常獨特，其算法方面的明顯特徵就是：在算法流程中調用自身。 2. 遞

weixin_38324954

2020-07-08 11:06:52

未理解的題

關於樹的深度優先搜索算法描述錯誤的是 A : 按照某個條件往前試探搜索,如果前進中遭遇失敗, 則退回頭另選通路繼續搜索,直到找到條件目標爲止 B: 先訪問該節點所有的子節點, 遍歷完畢後選取它未訪問過的子節點重複上述過程,直到找到

2020-07-08 10:56:02

按位與& 和模運算 % 的關係

unsigned int MAX = 32; // 2的5次方 unsigned int index = 31; index = (index + 100) % MAX; printf ("inde

2020-07-08 10:56:02

位運算判斷兩個數是否異號

首先介紹下負數在計算機中的表示和存儲在計算機系統中，數值一律用補碼錶示和存儲。含符號位和數值位，符號位：0表示“正”； 1表示“負”。正數的補碼 = 原碼負數的補碼 = 負數的原碼取反（符號位保持不變）+ 1 列如比如

2020-07-08 10:56:01

按位或與加法的區別

0 | 0 = 0 1 | 1 = 1 0 | 1 = 1 1 | 0 = 1 0 ^ 0 = 0 1 ^ 1 = 0 0 ^ 1 = 1 1 ^ 0 = 1 0 & 0 = 0 1 &

2020-07-08 10:56:01

24小時熱門文章

最新文章

最新評論文章