初學者如何查閱自然語言處理領域學術資料(轉)

轉載自http://blog.sina.com.cn/s/blog_574a437f01019poo.html

昨天實驗室一位剛進組的同學發郵件來問我如何查找學術論文,這讓我想起自己剛讀研究生時茫然四顧的情形:看着學長們高談闊論領域動態,卻不知如何入門。經過研究生幾年的耳濡目染,現在終於能自信地知道去哪兒瞭解最新科研動態了。我想這可能是初學者們共通的困惑,與其只告訴一個人知道,不如將這些Folk Knowledge寫下來,來減少更多人的麻煩吧。當然,這個總結不過是一家之談,只盼有人能從中獲得一點點益處,受個人認知所限,難免掛一漏萬,還望大家海涵指正。

1.      國際學術組織、學術會議與學術論文

自然語言處理(natural language processingNLP)在很大程度上與計算語言學(computational linguisticsCL)重合。與其他計算機學科類似,NLP/CL有一個屬於自己的最權威的國際專業學會,叫做The Association for Computational LinguisticsACLURLhttp://aclweb.org/),這個協會主辦了NLP/CL領域最權威的國際會議,即ACL年會,ACL學會還會在北美和歐洲召開分年會,分別稱爲NAACLEACL。除此之外,ACL學會下設多個特殊興趣小組(special interest groupsSIGs),聚集了NLP/CL不同子領域的學者,性質類似一個大學校園的興趣社團。其中比較有名的諸如SIGDATLinguistic data and corpus-based approaches to NLP)、SIGNLLNatural Language Learning)等。這些SIGs也會召開一些國際學術會議,其中比較有名的就是SIGDAT組織的EMNLPConference on Empirical Methods on Natural Language Processing)和SIGNLL組織的CoNLLConference on Natural Language Learning)。此外還有一個International Committee on Computational Linguistics的老牌NLP/CL學術組織,它每兩年組織一個稱爲International Conference on Computational Linguistics (COLING)的國際會議,也是NLP/CL的重要學術會議。NLP/CL的主要學術論文就分佈在這些會議上。

作爲NLP/CL領域的學者最大的幸福在於,ACL學會網站建立了稱作ACL Anthology的頁面(URLhttp://aclweb.org/anthology-new/),支持該領域絕大部分國際學術會議論文的免費下載,甚至包含了其他組織主辦的學術會議,例如COLINGIJCNLP等,並支持基於Google的全文檢索功能,可謂一站在手,NLP論文我有。由於這個論文集合非常龐大,並且可以開放獲取,很多學者也基於它開展研究,提供了更豐富的檢索支持,具體入口可以參考ACL Anthology頁面上方搜索框右側的不同檢索按鈕。

與大部分計算機學科類似,由於技術發展迅速,NLP/CL領域更重視發表學術會議論文,原因是發表週期短,並可以通過會議進行交流。當然NLP/CL也有自己的旗艦學術期刊,發表過很多經典學術論文,那就是Computational LinguisticsURLhttp://www.mitpressjournals.org/loi/coli)。該期刊每期只有幾篇文章,平均質量高於會議論文,時間允許的話值得及時追蹤。此外,ACL學會爲了提高學術影響力,也剛剛創辦了Transactions of ACLTACLURLhttp://www.transacl.org/),值得關注。值得一提的是這兩份期刊也都是開放獲取的。此外也有一些與NLP/CL有關的期刊,如ACM Transactions on Speech and Language ProcessingACM Transactions on Asian Language Information ProcessingJournal of Quantitative Linguistics等等。

根據Google Scholar Metrics 2013年對NLP/CL學術期刊和會議的評價,ACLEMNLPNAACLCOLINGLRECComputational Linguistics位於前5位,基本反映了本領域學者的關注程度。

NLP/CL作爲交叉學科,其相關領域也值得關注。主要包括以下幾個方面:(1)信息檢索和數據挖掘領域。相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIRWWWWSDM等;(2)人工智能領域。相關學術會議主要包括AAAIIJCAI等,相關學術期刊主要包括Artificial IntelligenceJournal of AI Research;(3)機器學習領域,相關學術會議主要包括ICMLNIPSAISTATSUAI等,相關學術期刊主要包括Journal of Machine Learning ResearchJMLR)和Machine LearningML)等。例如最近興起的knowledge graph研究論文,就有相當一部分發表在人工智能和信息檢索領域的會議和期刊上。實際上國內計算機學會(CCF)制定了中國計算機學會推薦國際學術會議和期刊目錄http://www.ccf.org.cn/sites/ccf/aboutpm.jsp?contentId=2567814757463),通過這個列表,可以迅速瞭解每個領域的主要期刊與學術會議。

最後,值得一提的是,美國Hal Daumé III維護了一個natural language processing的博客(http://nlpers.blogspot.com/),經常評論最新學術動態,值得關注。我經常看他關於ACLNAACL等學術會議的參會感想和對論文的點評,很有啓發。另外,ACL學會維護了一個Wiki頁面(http://aclweb.org/aclwiki/),包含了大量NLP/CL的相關信息,如著名研究機構、歷屆會議錄用率,等等,都是居家必備之良品,值得深挖。

2.      國內學術組織、學術會議與學術論文

與國際上相似,國內也有一個與NLP/CL相關的學會,叫做中國中文信息學會(URLhttp://www.cipsc.org.cn/)。通過學會的理事名單(http://www.cipsc.org.cn/lingdao.php)基本可以瞭解國內從事NLP/CL的主要單位和學者。學會每年組織很多學術會議,例如全國計算語言學學術會議(CCL)、全國青年計算語言學研討會(YCCL)、全國信息檢索學術會議(CCIR)、全國機器翻譯研討會(CWMT),等等,是國內NLP/CL學者進行學術交流的重要平臺。尤其值得一提的是,全國青年計算語言學研討會是專門面向國內NLP/CL研究生的學術會議,從組織到審稿都由該領域研究生擔任,非常有特色,也是NLP/CL同學們學術交流、快速成長的好去處。值得一提的是,2010年在北京召開的COLING以及2015年即將在北京召開的ACL,學會都是主要承辦者,這也一定程度上反映了學會在國內NLP/CL領域的重要地位。此外,計算機學會中文信息技術專委會組織的自然語言處理與中文計算會議(NLP&CC)也是最近崛起的重要學術會議。中文信息學會主編了一份歷史悠久的《中文信息學報》,是國內該領域的重要學術期刊,發表過很多篇重量級論文。此外,國內著名的《計算機學報》、《軟件學報》等期刊上也經常有NLP/CL論文發表,值得關注。

過去幾年,在水木社區BBS上開設的AINLP版面曾經是國內NLP/CL領域在線交流討論的重要平臺。這幾年隨着社會媒體的發展,越來越多學者轉戰新浪微博,有濃厚的交流氛圍。如何找到這些學者呢,一個簡單的方法就是在新浪微博搜索的找人功能中檢索自然語言處理 計算語言學信息檢索機器學習等字樣,馬上就能跟過去只在論文中看到名字的老師同學們近距離交流了。還有一種辦法,清華大學樑斌開發的“微博尋人系統(http://xunren.thuir.org/)可以檢索每個領域的有影響力人士,因此也可以用來尋找NLP/CL領域的重要學者。值得一提的是,很多在國外任教的老師和求學的同學也活躍在新浪微博上,例如王威廉(http://weibo.com/u/1657470871)、李沐(http://weibo.com/mli65)等,經常爆料業內新聞,值得關注。還有,國內NLP/CL的著名博客是52nlphttp://www.52nlp.cn/),影響力比較大。總之,學術研究既需要苦練內功,也需要與人交流。所謂言者無意、聽者有心,也許其他人的一句話就能點醒你苦思良久的問題。無疑,博客微博等提供了很好的交流平臺,當然也注意不要沉迷哦。

3.      如何快速瞭解某個領域研究進展

最後簡單說一下快速瞭解某領域研究進展的經驗。你會發現,搜索引擎是查閱文獻的重要工具,尤其是谷歌提供的Google Scholar,由於其龐大的索引量,將是我們披荊斬棘的利器。

當需要了解某個領域,如果能找到一篇該領域的最新研究綜述,就省勁多了。最方便的方法還是在Google Scholar中搜索領域名稱 + survey / review / tutorial / 綜述來查找。也有一些出版社專門出版各領域的綜述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它們發表了很多熱門方向的綜述,如文檔摘要、情感分析和意見挖掘、學習排序、語言模型等。

如果方向太新還沒有相關綜述,一般還可以查找該方向發表的最新論文,閱讀它們的相關工作章節,順着列出的參考文獻,就基本能夠了解相關研究脈絡了。當然,還有很多其他辦法,例如去videolectures.net上看著名學者在各大學術會議或暑期學校上做的tutorial報告,去直接諮詢這個領域的研究者,等等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章