是計算機語言學家還是Twitter惹的禍?

 

在文學史上,一本原本銷量平平,無人問津的小說在一夜之間躍至暢銷書榜首,應該不算罕有。但羅伯特.蓋爾貝特(Robert Galbraith)的犯罪小說《布穀鳥的呼喚》(The Cuckoo's Calling)的背後,卻有另外一個文學史上前所未有的新故事。

 

這本書描述了一個在倫敦處境不順的私人偵探破案的故事,在最早發行之初,本書只賣出了1500本紙質版。而讀書評論界幾乎沒人注意到這本書,更算不上暢銷了,畢竟不是所有的英國犯罪小說都能像福爾摩斯系列那樣膾炙人口。但作者羅伯特先生似乎也並沒有着急而爲本書作很多推廣,按照他的原計劃,本書只是該系列的第一本。

 

本書第一版封面

 

出版社對作者的介紹爲:一位前便衣警探,於2003年離職後工作於民間安全產業領域。這原本是對作者背景的簡單介紹,但卻引來了一些有心人的疑問:對於這樣背景的蓋爾貝特先生而言,第一次寫作儘管在技術的角度可能能夠保證真實性,但從文學角度而言,蓋爾貝特先生不應該有這種完成一系列小說的自信。基於這樣的疑問,來自The Sunday Times的記者找到了美國迪尤肯大學(Duquesne University)的計算機科學家帕特瑞克.朱博士(Dr. Patrick Juola)。朱博士專攻計算機語言分析和安全領域,記者希望他能夠嘗試確定蓋爾貝特先生的真實身份。

 

朱博士一直在研究如何分辨不同作家的寫作模式。當然基本的方法也許很直接,例如考察具體的詞頻,詞的離散程度等等。但對於年代久遠的一些作品而言,找到相應參考的樣本的機會不多,如何在極端的條件下高精度地判別作家的寫作模式,是更爲有挑戰性的研究方向,具體的方法也許會涉及到更爲深奧的數學模型,例如隱馬爾科夫法等。

The Sunday Times的記者將J.K. 羅琳(哈利波特的作者)的新書《偶發空缺》(The Casual Vacancy)和其他的一些非童話作品以及其他類似犯罪小說的作品給了朱博士,希望他對這些作品和《布穀鳥的呼喚》進行比對,以確定作者可能的身份。

 

對於這個任務,朱博士運行了四段程序,用以比對文章的:

  • 詞頻最高的100個詞
  • 詞頻最高的四字縮寫
  • 相互毗鄰的詞語組合
  • 詞長的分佈

我們可以把這個看做成有4個元素的特徵向量,在樣本足夠大的條件下,區分少數特定作家的難度應該是不大的。

而最後的結論是,J.K. 羅琳的吻合程度最高,《布穀鳥的呼喚》要麼就是J.K. 羅琳本人寫的,要麼就是刻意模仿J.K.羅琳的作家寫的。

 

在得到另外一名英國語言學家相同的答覆後,The Sunday Times發佈了這一消息,懷疑《布穀鳥的呼喚》正是大名鼎鼎的J.K. 羅琳化名爲羅伯特.蓋爾貝特而作!此消息一出,該書由原亞馬遜英國書籍榜4709名一躍爲第一暢銷書。

 

數日後,J.K. 羅琳發佈聲明,承認自己就是“前便衣探員”蓋爾貝特先生。她略帶遺憾地表示:“這個祕密本來可以保持更久的。”“用沒有衆人關注和期待的化名來發新書真是一種享受,可以聽到人們關於作品最純粹的想法。”

 

所以這種小仲馬式的化名試驗自己作品是否爲盛名而負(當然小仲馬是不想依仗他父親的盛名,而J.K. 羅琳是不想被自己的名聲所影響)的小遊戲,在今後計算機擁有強大語言分析能力的背景下,樂趣全無。試想一個作家如果爲了要通過以上四個實驗,而拼命改變自己的筆調和語言風格,那必定是十分痛苦和彆扭的。

 

在這次披露後,不少人認真閱讀了這本書,並且給出了客觀的好評。如果沒有這樣的分析,也許在整個小說系列全部出版後、甚至像梵高的向日葵般在J.K. 羅琳死後才能得到這種意義上的欣賞。當然,那又會是另外一段文學史上的軼事了。

 

故事本來到這裏應該就告一段落了。可後來又有報道,原來蓋爾貝特的真實身份是在Twitter上泄露的! 一位曾經爲羅琳工作過的律師的老婆的朋友在Twitter上向The Sunday Times的記者泄露了這背後的故事!這多少好像暴露了人性的一些缺點,讓本身純粹的技術的方面的樂趣,變得有點賣弄和多餘,但這卻是不可拒絕的現實!

 

在現在的技術條件下,想要隱匿一些事情,無論是好的還是壞的,都是難上加難了,人的行爲足跡(特別是語言文字,無論以電子爲載體還是以紙質書籍爲載體)想要得到科學的分析和鑑定並非難事,況且在這整個故事鏈條裏,還時不時飛過藍色的告密小鳥!

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章