問題:找出二個集合S1與S2之間的最接近點對的距離
這個問題很容易理解,似乎也不難解決。我們只要將S1每一點與S2每一個的距離算出,找出達到最小距離的兩個點即可。然而,這樣做效率太低,需要O(n2)的計算時間。在問題的計算複雜性中我們可以看到,一個集合S找出最接近點對的計算時間下界爲Ω(nlogn)。這個下界引導我們去找這個問題的一個θ(nlogn)算法。
一.先討論一個集合最接近點對的情況(參考《計算機算法設計與分析》)
這個問題顯然滿足分治法的第一個和第二個適用條件,我們考慮將所給的平面上n個點的集合S分成2個子集S1和S2,每個子集中約有n/2個點,·然後在每個子集中遞歸地求其最接近的點對。在這裏,一個關鍵的問題是如何實現分治法中的合併步驟,即由S1和S2的最接近點對,如何求得原集合S中的最接近點對,因爲S1和S2的最接近點對未必就是S的最接近點對。如果組成S的最接近點對的2個點都在S1中或都在S2中,則問題很容易解決。但是,如果這2個點分別在S1和S2中,則對於S1中任一點p,S2中最多隻有n/2個點與它構成最接近點對的候選者,仍需做n2/4次計算和比較才能確定S的最接近點對。因此,依此思路,合併步驟耗時爲O(n2)。整個算法所需計算時間T(n)應滿足: T(n)=2T(n/2)+O(n2)
它的解爲T(n)=O(n2),即與合併步驟的耗時同階,顯示不出比用窮舉的方法好。從解遞歸方程的套用公式法,我們看到問題出在合併步驟耗時太多。這啓發我們把注意力放在合併步驟上。
爲了使問題易於理解和分析,我們先來考慮一維的情形。此時S中的n個點退化爲x軸上的n個實數x1,x2,..,xn。最接近點對即爲這n個實數中相差最小的2個實數。我們顯然可以先將x1,x2,..,xn排好序,然後,用一次線性掃描就可以找出最接近點對。這種方法主要計算時間花在排序上,因此如在排序算法中所證明的,耗時爲O(nlogn)。然而這種方法無法直接推廣到二維的情形。因此,對這種一維的簡單情形,我們還是嘗試用分治法來求解,並希望能推廣到二維的情形。
假設我們用x軸上某個點m將S劃分爲2個子集S1和S2,使得S1={x∈S|x≤m};S2={x∈S|x>m}。這樣一來,對於所有p∈S1和q∈S2有p<q。
遞歸地在S1和S2上找出其最接近點對{p1,p2}和{q1,q2},並設δ=min{|p1-p2|,|q1-q2|},S中的最接近點對或者是{p1,p2},或者是{q1,q2},或者是某個{p3,q3},其中p3∈S1且q3∈S2。如圖1所示。
圖1 一維情形的分治法
我們注意到,如果S的最接近點對是{p3,q3},即|p3-q3|<δ,則p3和q3兩者與m的距離不超過δ,即|p3-m|<δ,|q3-m|<δ,也就是說,p3∈(m-δ,m],q3∈(m,m+δ]。由於在S1中,每個長度爲δ的半閉區間至多包含一個點(否則必有兩點距離小於δ),並且m是S1和S2的分割點,因此(m-δ,m]中至多包含S中的一個點。同理,(m,m+δ]中也至多包含S中的一個點。由圖1可以看出,如果(m-δ,m]中有S中的點,則此點就是S1中最大點。同理,如果(m,m+δ]中有S中的點,則此點就是S2中最小點。因此,我們用線性時間就能找到區間(m-δ,m]和(m,m+δ]中所有點,即p3和q3。從而我們用線性時間就可以將S1的解和S2的解合併成爲S的解。也就是說,按這種分治策略,合併步可在O(n)時間內完成。這樣是否就可以得到一個有效的算法了呢?還有一個問題需要認真考慮,即分割點m的選取,及S1和S2的劃分。選取分割點m的一個基本要求是由此導出集合S的一個線性分割,即S=S1∪S2 ,S1∩S2=Φ,且S1 {x|x≤m};S2 {x|x>m}。容易看出,如果選取m=[max(S)+min(S)]/2,可以滿足線性分割的要求。選取分割點後,再用O(n)時間即可將S劃分成S1={x∈S|x≤m}和S2={x∈S|x>m}。然而,這樣選取分割點m,有可能造成劃分出的子集S1和S2的不平衡。例如在最壞情況下,|S1|=1,|S2|=n-1,由此產生的分治法在最壞情況下所需的計算時間T(n)應滿足遞歸方程:
T(n)=T(n-1)+O(n)
它的解是T(n)=O(n2)。這種效率降低的現象可以通過分治法中“平衡子問題”的方法加以解決。也就是說,我們可以通過適當選擇分割點m,使S1和S2中有大致相等個數的點。自然地,我們會想到用S的n個點的座標的中位數來作分割點。在選擇算法中介紹的選取中位數的線性時間算法使我們可以在O(n)時間內確定一個平衡的分割點m。
至此,我們可以設計出一個求一維點集S中最接近點對的距離的算法CPAIR1如下。
function CPAIR1(S);
begin
if |S|=2 then δ=|x[2]-x[1]| // x[1..n]存放的是S中n個點的座標
else if (|S|=1)
then δ:=∞
else begin
m:=S中各點的座標值的中位數;
構造S1和S2,使S1={x∈S|x≤m},S2={x∈S|x>m};
δ1:=CPAIRI(S1);
δ2:=CPAIRI(S2);
p:=max(S1);
q:=min(S2);
δ:=min(δ1,δ2,q-p);
end;
return(δ);
end;
由以上的分析可知,該算法的分割步驟和合並步驟總共耗時O(n)。因此,算法耗費的計算時間T(n)滿足遞歸方程:
解此遞歸方程可得T(n)=O(nlogn)。
這個算法看上去比用排序加掃描的算法複雜,然而這個算法可以向二維推廣。
下面我們來考慮二維的情形。此時S中的點爲平面上的點,它們都有2個座標值x和y。爲了將平面上點集S線性分割爲大小大致相等的2個子集S1和S2,我們選取一垂直線l:x=m來作爲分割直線。其中m爲S中各點x座標的中位數。由此將S分割爲S1={p∈S|px≤m}和S2={p∈S|px>m}。從而使S1和S2分別位於直線l的左側和右側,且S=S1∪S2 。由於m是S中各點x座標值的中位數,因此S1和S2中的點數大致相等。
遞歸地在S1和S2上解最接近點對問題,我們分別得到S1和S2中的最小距離δ1和δ2。現設δ=min(δ1,δ1)。若S的最接近點對(p,q)之間的距離d(p,q)<δ則p和q必分屬於S1和S2。不妨設p∈S1,q∈S2。那麼p和q距直線l的距離均小於δ。因此,我們若用P1和P2分別表示直線l的左邊和右邊的寬爲δ的2個垂直長條,則p∈S1,q∈S2,如圖2所示。
圖2 距直線l的距離小於δ的所有點
在一維的情形,距分割點距離爲δ的2個區間(m-δ,m](m,m+δ]中最多各有S中一個點。因而這2點成爲唯一的末檢查過的最接近點對候選者。二維的情形則要複雜些,此時,P1中所有點與P2中所有點構成的點對均爲最接近點對的候選者。在最壞情況下有n2/4對這樣的候選者。但是P1和P2中的點具有以下的稀疏性質,它使我們不必檢查所有這n2/4對候選者。考慮P1中任意一點p,它若與P2中的點q構成最接近點對的候選者,則必有d(p,q)<δ。滿足這個條件的P2中的點有多少個呢?容易看出這樣的點一定落在一個δ×2δ的矩形R中,如圖3所示。
圖3 包含點q的δ×2δ的矩形R
由δ的意義可知P2中任何2個S中的點的距離都不小於δ。由此可以推出矩形R中最多隻有6個S中的點。事實上,我們可以將矩形R的長爲2δ的邊3等分,將它的長爲δ的邊2等分,由此導出6個(δ/2)×(2δ/3)的矩形。如圖4(a)所示。
圖4 矩形R中點的稀疏性
若矩形R中有多於6個S中的點,則由鴿舍原理易知至少有一個δ×2δ的小矩形中有2個以上S中的點。設u,v是這樣2個點,它們位於同一小矩形中,則
因此d(u,v)≤5δ/6<δ 。這與δ的意義相矛盾。也就是說矩形R中最多隻有6個S中的點。圖4(b)是矩形R中含有S中的6個點的極端情形。由於這種稀疏性質,對於P1中任一點p,P2中最多隻有6個點與它構成最接近點對的候選者。因此,在分治法的合併步驟中,我們最多只需要檢查6×n/2=3n對候選者,而不是n2/4對候選者。這是否就意味着我們可以在O(n)時間內完成分治法的合併步驟呢?現在還不能作出這個結論,因爲我們只知道對於P1中每個S1中的點p最多只需要檢查P2中的6個點,但是我們並不確切地知道要檢查哪6個點。爲了解決這個問題,我們可以將p和P2中所有S2的點投影到垂直線l上。由於能與p點一起構成最接近點對候選者的S2中點一定在矩形R中,所以它們在直線l上的投影點距p在l上投影點的距離小於δ。由上面的分析可知,這種投影點最多隻有6個。因此,若將P1和P2中所有S的點按其y座標排好序,則對P1中所有點p,對排好序的點列作一次掃描,就可以找出所有最接近點對的候選者,對P1中每一點最多隻要檢查P2中排好序的相繼6個點。
至此,我們可以給出用分治法求二維最接近點對的算法CPAIR2如下:
function CPAIR2(S);
begin
if |S|=2 then δ:=S中這2點的距離
else if |S|=0
then δ:=∞
else begin
1. m:=S中各點x座標值的中位數;
構造S1和S2,使S1={p∈S|px≤m}和S2={p∈S|px>m}
2. δ1:=CPAIR2(S1);δ2:=CPAIR2(S2);
3. δm:=min(δ1,δ2);
4. 設P1是S1中距垂直分割線l的距離在δm之內的所有點組成的集合,P2是S2中距分割線l的距離在δm之內所有點組成的集合。將P1和 P2中的點依其y座標值從小到大排序,並設P1*和P2*是相應的已排好序的點列;
5. 通過掃描P1*以及對於P1*中每個點檢查P2*中與其距離在δm之內的所有點(最多6個)可以完成合並。當P1*中的掃描指針逐次向上移動時,P2*中的掃描指針可在寬爲2δm的一個區間內移動。設δl是按這種掃描方式找到的點對間的最小距離;
6. δ=min(δm,δl);
end;
return(δ);
end;
下面分析一下算法CPAIR2的計算複雜性。設對於n個點的平面點集S,算法耗時T(n)。算法的第1步和第5步用了O(n)時間,第3步和第6步用了常數時間,第2步用了2T(n/2)時間。若在每次執行第4步時進行排序,則在最壞情況下第4步要用O(nlogn)時間。這不符合我們的要求。因此,在這裏我們要作一個技術上的處理。我們採用設計算法時常用的預排序技術,即在使用分治法之前,預先將S中n個點依其y座標值排好序,設排好序的點列爲P*。在執行分治法的第4步時,只要對P*作一次線性掃描,即可抽取出我們所需要的排好序的點列P1*和P2*。然後,在第5步中再對P1*作一次線性掃描,即可求得δl。因此,第4步和第5步的兩遍掃描合在一起只要用O(n)時間。這樣一來,經過預排序處理後的算法CPAIR2所需的計算時間T(n)滿足遞歸方程:
顯而易見T(n)=O(nlogn),預排序所需的計算時間爲O(n1ogn)。因此,整個算法所需的計算時間爲O(nlogn)。在漸近的意義下,此算法已是最優的了。
二.再討論二個集合間最接近點對的情況
對於求二個集合間的最接近點對的算法,其實和普通一個集合的最近點對一樣,分治,複雜度O(nlogn),只不過在合併的時候只有兩個點屬於不同的集合纔會更新。這麼做已經證明是對的,因爲遞歸到2個點的時候最近的點對一定是合併的時候產生的,所以其實在整個算法過程中不斷更新的答案一定是在合併的時候產生的,因此只需在合併的時候注意兩個點屬於不同集合就好了。因此在S1與S2集合中的每個點增加一個標記域,表示此點屬於哪一個集合。時間複雜度與一個集合的是一樣,爲O(nlogn)。
if |S1|=0 || |S2|=0
{
δ:=∞
return δ;
}
else
begin
先給S1中的每一個點增加一個標識1,表示屬於集合S1。給S2中的每一個點增加一個標識2,表示屬於集合S2。
合併S1,S2爲S,並對S按照橫座標值快速排序(也可以利用隨機化快速排序,從而減小排序平均複雜度)。
function CPAIR2(S);
begin
if |S|=2
if 這二個點屬於不同集合
δ:=S中這2點的距離
else
δ:=∞
else if |S|=0
δ:=∞
else
begin
1. m:=S中各點x座標值的中位數;
構造S1*和S2*,使S1*={p∈S|px≤m}和S2*={p∈S|px>m}
2. δ1:=CPAIR2(S1*);δ2:=CPAIR2(S2*);
3. δm:=min(δ1,δ2);
4. 設P1是S1*中距垂直分割線l的距離在δm之內的所有 點組成的集合, P2是S2*中距分割線l的距離在δm之內所有點組成的集合。將P1和P2中的點依其y座標值從小到大排序,並設P1*和P2*是相應的已排好序的點列;
5. 通過掃描P1*以及對於P1*中每個點檢查P2*中與其距離在δm之內的所有點(最多6個)可以完成合並。當P1*中的掃描指針逐次向上移動時,P2*中的掃描指針可在寬爲2δm的一個區間內移動,同時需要滿足檢測的這對點的標識要不相等(即屬於不同集合)。設δl是按這種掃描方式找到的點對間的最小距離;
6. δ=min(δm,δl);
end;
return(δ);
end;
end;
三.C++實現代碼
#include<iostream>
#include<cmath>
#define MAXSIZE 10000 //所有數組中元素的個數最多爲MAXSIZE個
#define Infinity 65535 //定義無窮大
using namespace std;
//#define point double*//點的基本類型,最好自己重新定義成結構體
//點的基本類型
typedef struct
{
double x;//x座標
double y;//y座標
int flag;//屬於哪個集合,0表示屬於S1,1表示屬於S2
} point;
//s1,s2表示二個集合,s是s1與s2合併而來,t是s1與s2中距分割線l的距離在δm之內所有點組成的集合
point s1[MAXSIZE],s2[MAXSIZE],s[MAXSIZE],t[MAXSIZE];
//從一個點的集合s中,得到距離最近的兩個點,返回其距離
double cp(int low,int high);
//求二點之間的距離,且要滿足屬於不同集合,如果屬於相同集合則是它們之間的距離是無窮大(65535)
double distance(const point u,const point v)
{
if(u.flag != v.flag)//屬於不同集合
return sqrt((u.x-v.x)*(u.x-v.x)+(u.y-v.y)*(u.y-v.y));
else//屬於相同集合,則它們之間的距離爲無窮大
return (double)Infinity;
}
//對點進行排序,快速排序,增序,flag=0依據橫座標排序,flag=1依據縱座標排序
void fast_sort_X_Y(point *s,int begin,int end,bool flag)
{
if(!flag)//按橫座標排序
{
if(begin<end)
{
int i,j;
i = begin; j = end;
point temp = s[begin];
while(i<j)
{
while(i<j&&s[j].x>=temp.x)
j--;
s[i] = s[j];
while(i<j&&s[i].x<=temp.x)
i++;
s[j] = s[i];
}
s[i] = temp;
fast_sort_X_Y(s,begin,i-1,flag);
fast_sort_X_Y(s,i+1,end,flag);
}
}
else //按縱座標排序
{
if(begin<end)
{
int i,j;
i = begin; j = end;
point temp = s[begin];
while(i<j)
{
while(i<j&&s[j].y>=temp.y)
j--;
s[i] = s[j];
while(i<j&&s[i].y<=temp.y)
i++;
s[j] = s[i];
}
s[i] = temp;
fast_sort_X_Y(s,begin,i-1,flag);
fast_sort_X_Y(s,i+1,end,flag);
}
}
}
//當s集合小於三個點
double distance_Of_Three_Or_Less(point *s,int low,int high)
{
double temp1,temp2,temp3;
if((high-low)<1)
{
cout<<"少於兩個點,出錯!"<<endl;
return Infinity;
}
else if((high-low)==1) //二個點
{
return distance(s[low],s[high]);
}
else
{
temp1 = distance(s[low],s[low+1]);
temp2 = distance(s[low],s[high]);
temp3 = distance(s[low+1],s[high]);
double temp = temp1<temp2?temp1:temp2;
return temp<temp3?temp:temp3;
}
}
//從一個點的集合s中,得到距離最近的兩個點,返回其距離
double cp(point *s,int low, int high)
{
int mid,k,i,j;
double x0,dl,dr,d,d1;
if((high-low)<3) //提供的點少於等於3個
{
return distance_Of_Three_Or_Less(s,low, high);
}
else
{
mid = (low+high)/2;
x0 = s[mid].x;
dl = cp(s,low,mid);
dr = cp(s,(mid+1),high);
d = (dl>dr)?dr:dl;
k = -1;
//從s[low...high]中抽取t
for(i=low;i<=high;i++)
{
if(fabs(s[i].x - x0) <= d)
{
k++;
t[k] = s[i];
}
}
fast_sort_X_Y(t,0,k,1);
d1 = 2*d;
k++;//k爲t數組元素的個數
for(i=0;i<k-1;i++)
{
for(j=(i+1);j<(((i+7)<k)?(i+7):k);j++)
if(distance(t[i],t[j]) < d1)
d1 = distance(t[i],t[j]);
}
if(d1<d)
d=d1;
}
return d;
}
void main()
{
int n1,n2;
cout<<"請分別輸入S1集合和S2集合中點的個數:"<<endl;
cin>>n1>>n2;
cout<<"請輸入S1集合中的點座標(橫座標,縱座標):"<<endl;
int i;
//輸入數據,並同時合併s1與s2到s中
for(i=0;i<n1;++i)
{
cin>>s1[i].x>>s1[i].y;
s1[i].flag = 1;
s[i] = s1[i];
}
cout<<"請輸入S2集合中的點座標(橫座標,縱座標):"<<endl;
for(i=0;i<n2;++i)
{
cin>>s2[i].x>>s2[i].y;
s2[i].flag = 2;
s[n1+i] = s2[i];
}
fast_sort_X_Y(s,0,n1+n2-1,0);
cout<<"最短距離爲:"<<endl;
cout<<cp(s,0,n1+n2-1)<<endl;;
}