共引聚類分析方法研究

引文分析根據分析角度的不同可以分爲兩種類型:一是從引文數量上進行分析,另一類是從引文網狀關係上進行探討,這種分析角度不僅僅停留在引文數量等文獻外部特徵,已經融入了相關主題內容等因素,是更爲深入的引文分析方法。共引分析就是後者的一種形式。

共引(Co-Citation),又稱同被引,若兩篇文獻同時被n篇文獻(n=1,2,…)所引用,則稱這兩篇文獻具有共引關係,其共引強度爲n。一般認爲同被引用的文獻在主題上具有或多或少的相似性, 因此同被引次數即共引強度可以測度文獻在內容方面的相關度。由此, 通過一組文獻之間的共引關係可以形成共引網絡, 該網絡內節點之間的遠近便可以反映它們主題內容的親疏關係。共引分析就是以此爲原理,以具有一定學科代表性的一批文章(或著者或期刊)爲分析對象, 利用聚類分析、多維標度等多元統計分析方法, 藉助計算機, 把衆多分析對象之間錯綜複雜的共引網狀關係簡化爲數目相對較少的若干類羣之間的關係並直觀地表示出來,研究分析對象所代表的學科及文獻的結構和特點。

前蘇聯情報學家依林娜.馬沙科娃和美國情報學家亨利.斯莫爾於1973年分別提出文獻共引的概念。將此概念推廣到與文獻相關的各種特徵對象上,形成各種類型的共引概念,如詞共引、文獻共引、著者共引、期刊共引、主題共引和類共引等。縱觀國外共引分析的研究歷程,主要有兩個系列:以斯莫爾爲代表的以文獻爲分析單位所做的文獻共引分析研究,和以懷特爲代表的以作者爲分析單位所做的作者共引分析研究。期刊共引分析研究則相對較少。

基於共引的聚類分析是聚類分析技術在共引領域的具體應用,主要是指以共引強度作爲基本計量單位,對給定的引用文獻集合或被引文獻集合進行分類聚合的定量處理技術。這種技術可以將內容聯繫密切的論文聚合爲一個個文獻簇,並定量給出簇與簇之間的聯繫程度,進而生成某一學科專業論文的聚類分析網絡圖或樹狀圖。分析過程一般包括如下幾個步驟:

1、確定分析領域。確定擬研究的學科領域,選擇學科範圍,既可以選全學科或比較大的學科,又可以選擇小學科或某學科中的某一專業、某研究專題等以確定是在宏觀層次揭示整體的學科結構和科學發展規律,還是在微觀層次描述單個學科或者研究團體以及他們的相互依賴關係。

2、確定分析單位。共引分析的分析單位可以是期刊、論文或作者,其中以論文和作者爲分析單位的居多。期刊有相對穩定的內容範圍,以其爲分析單位可以反映學科或主題之間的關係;論文中包含了一個學科或者課題的關鍵概念、方法、數據,以其爲分析單位可以揭示思想學術流派、學科專業或主題領域之間的關係;作者一般在某個興趣範圍做長期連續的研究工作,形成了自己的特點,以其爲分析單位可以體現各個學術流派之間的聯繫,並能勾勒出不同學科領域卓越作者的經驗圖譜。分析單位各有特點,應根據分析領域選擇適當的分析單位。

3、選擇分析對象。在擬研究的學科領域,從大量的數據中選擇有代表性的目標文獻(作者或期刊)作爲分析對象。分析對象的選擇可以以被引次數爲根據,也可以利用專家評選、書目索引、名人錄等能夠確定其聲望和水平的信息源。根據被引頻次選擇分析對象是最常用的方法,但是有兩個問題需要注意:一是被引頻次閾值的確定,過低過高都不好,要保證所選文獻有一定的代表性和覆蓋範圍;二是絕對被引頻次的侷限性。由於不同學科在引文數量上有很大差異,這樣必然導致學科結構分析結果失真,爲此Small提出用改進的指標分數引文量(Fractional Citation Counting)來選擇文獻,就是每一篇引文都用引用它的來源文獻的引文長度進行加權,以此來平衡學科差異。

4、蒐集引文數據並生成共引矩陣。選擇合適的引文數據庫蒐集引文數據,國外的主要有SCISSCIAHCI,國內主要有CNKICSCDCSSCI等。統計原理實際是找出引用了分析對象I的論文集合C1,找出引用了分析對象J的論文集合C2;比較C1C2中的論文,相同的文獻數目即爲分析對象IJ的共引頻次。目前通過引文檢索系統是能夠獲得兩個分析對象的共引頻次的,但是相比於引文數量分析,共引頻次的統計還是比較費時費力的。通過對共引頻次進行統計,形成二維原始矩陣,即共被引頻次矩陣。共引矩陣爲對稱矩陣,非主對角線上的值爲共引次數,主對角線上的數據可定義爲缺失值或者對其進行縮放。同時還要考慮對數據進行縮減,因爲有些數據對於目標意義不大。

5、將原始共引矩陣轉化爲相關矩陣。共引分析關注的重點不是共引次數的高低,而是共引所形成的相似性,雖然共引矩陣本身也是相關矩陣,但是一般不直接作爲輸入數據,需要進行轉化。將原始矩陣標準化,就是要消除那些高被引對象與那些與其相似卻很少被引的對象在規模上的差別,得到更易於解釋的分析結果。常用的是將原始矩陣轉換爲皮爾遜相關矩陣(Pearson Correlations),直接使用SPSS軟件中的”correlate”程序即可。矩陣轉換實際是根據一定的相似係數測量分析對象之間的相關程度,形成一個新的矩陣,因此相似係數的選擇很重要。共引分析中常用的相似係數有餘弦係數、Jaccard係數,Pearson係數等。早期Small等人主要採用餘弦、Jaccard來測量文獻之間的相關度,後面White等人的作者共引分析,則主要採用Pearson測量作者相關度,怎樣選擇相似係數至今還沒有一個嚴格的標準。

6、數據的綜合處理分析。運用聚類分析算法對分析對象之間的相互關係進行定量研究,並將分析對象及其關係顯示在二維空間中。聚類分析算法詳情下面會做介紹。

7、結果的分析和解釋。通過對引文數據的分析處理,能使分析對象的格局更加清晰直觀,並能提供分析對象之間由引文關係形成的相對位置關係和相互關係的親疏程度,再結合學科專業知識,可做出進一步的分析和判斷。

將一羣物理的或抽象的對象,根據它們之間的相似程度,分爲若干組,其中相似的對象構成一組,這一過程就稱爲聚類過程(clustering),一個聚類又稱簇,就是由彼此相似的一組對象所構成的集合。聚類分析,是指把分析對象根據彼此之間的相關程度分成類羣,羣內儘量相似,羣間儘量相異,然後進行分析研究的過程。它藉助計算機,把數量一般比較龐大、彼此間關係錯綜複雜的分析對象根據一定的相關性測度方法聚成數目相對較少的一些類羣,簡化了數據,有利於揭示對象之間的相互關係,探求其中的規律。聚類分析是傳統共引分析中最常用的技術方法,也最常用的多元統計方法之一,它屬於降低維數技術的範疇。聚類分析一般過程是:首先計算兩兩對象之間的相關程度,形成相關矩陣,然後把相關矩陣作爲輸入數據,根據一定的聚類算法把對象分成類羣。這一過程中,相似係數和聚類算法的選擇非常重要,相似係數前已闡述。聚類算法一般可分爲層次方法(hierarchical methods)和劃分方法(partition methods)兩種類型。

層次方法對給定數據對象集合進行層次的分解。根據層次的分解如何形成,層次的方法可以分爲凝聚的和分裂的。凝聚的方法,也稱爲自底向上的方法,一開始將每個對象作爲一個單獨的一個組,然後相繼地合併相近的對象或組,直到所有的組合併爲一個,或者達到一個終止條件。分裂的方法,也稱爲自頂向下的方法,一開始將所有的對象置於一個簇中,在迭代的每一步中,一個簇分裂爲更小的簇,直到最終每個對象在單獨的一個簇中,或者達到一個終止條件。

給定n個對象,一個劃分方法構建對象的k個劃分,每個劃分表示一個聚簇,並且k<=n。給定要構建的劃分的數目k,劃分方法首先創建一個初始劃分。然後採用一種迭代的重定位技術,將對象從一個劃分移到另一個劃分來改善劃分質量。一個好的劃分的一般準則是:在同一個類中的對象之間儘可能“接近”或相關,而不同類中的對象之間儘可能“遠離”或不同。目前比較流行的是k-平均算法,k-中心點算法兩種啓發式的劃分方法。目前在SASSPSS統計分析包中都有聚類程序。

基於共引的聚類分析方法雖然已經比較成熟,應用廣泛,但是不可避免的還是存在一定的侷限性:一方面是共引分析固有的問題,包括:a數據蒐集過程煩瑣且費時,蒐集好的數據還需要轉化成統計工具或可視化工具所需要的形式;b相似度計算方法衆多,缺乏一種廣泛認可的相似度選擇標準;c由於聚類時針對的是高被引論文,而一些新出現的研究領域,因爲太新可能在分析時還未被高被引,因此分析結果可能會漏掉一些前沿研究領域。另一方面是聚類方法存在的問題,雖然聚類結果的樹狀圖能夠反映分類過程的細節信息,但無法反映最終類羣之間的相異程度,不便於分析解釋;聚類分析雖然在一定程度上能夠實現數據降維,但是不適用於數據集較大的情況。

共引分析方法的演進加速了上述問題的解決。在方法類型上,隨着信息技術的發展,可視化技術逐漸滲透到共引分析領域。1997年,Linxia已開始嘗試將自組織映射技術(SOM)應用到作者共引分析中;1999年和2000年,Chen將潛在語義索引(LSI)和網絡尋址定位(PFNETs)融入作者共引分析。在方法實踐上,學者們也在不斷的探尋更有效的途徑。在已經實踐的聚類過程中可以發現, 引文率高的學科往往可以形成比較完備的聚類,而引文率低的學科如數學、工程等大學科在共引聚類中的地位明顯不足。爲此, Small等人引入了可變水平聚類方法,即在聚類過程中限定類中結點數目,不斷調整聚類臨界值的方法,來消除不同學科間引文率不同所造成的分析結構的不平衡性。還提出以類聚類的反覆聚類方法,即以一次聚類形成的簇爲單元再次聚類, 逐步形成大類、超類。

共引聚類分析方法隨着現代信息技術的發展和大型引文數據庫出現而不斷髮展,已然成爲科學學、情報學和現代科技管理應用研究中常用的基本方法之一。相信隨着方法本身的演進和技術的發展,共引聚類分析會更加成熟,從而爲科學決策者、各級部門管理者和科研工作者提供有效的決策支持。

 

參考文獻:

[1]龐景安. 科學計量研究方法論[M]. 北京:科學技術文獻出版社,1999

[2]王建芳,冷伏海. 共引分析理論與實踐進展[J]. 中國圖書館學報,2006 ; (1)

[3]趙黨志.共引分析—研究學科及其文獻結構和特點的一種有效方法[J].情報雜誌,1993(5)

[4]耿海英,肖仙桃.國外共引分析研究進展及發展趨勢[J].情報雜誌,2006(12)

[5]耿海英.共引分析方法及其應用研究[D].中國科學院國家科學圖書館,2007

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章