WSDM Cup 2020檢索排序評測任務第一名經驗總結

1. 背景

第13屆“國際網絡搜索與數據挖掘會議”(WSDM 2020)於2月3日在美國休斯敦召開,該會議由SIGIR、SIGKDD、SIGMOD和SIGWEB四個專委會共同協調籌辦,在互聯網搜索、數據挖掘領域享有很高學術聲譽。本屆會議論文錄用率僅約15%,並且WSDM歷來注重前沿技術的落地應用,每屆大會設有的WSDM Cup環節提供工業界真實場景中的數據和任務用以研究和評測。

今年的WSDM Cup設有3個評測任務,吸引了微軟、華爲、騰訊、京東、中國科學院、清華大學、臺灣大學等衆多國內外知名機構的參與。美團搜索與NLP部繼去年獲得了WSDM Cup 2019第二名後,今年繼續發力,拿下了WSDM Cup 2020 Task 1:Citation Intent Recognition榜單的第一名。

本次參與的是由微軟研究院提出的Citation Intent Recognition評測任務,該任務共吸引了全球近600名研究者的參與。本次評測中我們引入高校合作,參評團隊Ferryman由搜索與NLP部-NLP中心的劉帥朋、江會星及電子科技大學、東南大學的兩位科研人員共同組建。團隊提出了一種基於BERT和LightGBM的多模融合檢索排序解決方案,該方案同時被WSDM Cup 2020錄用爲專欄論文

2. 任務簡介

任務要求參賽者根據論文中對某項科研工作的描述,從論文庫中找出與該描述最匹配的Top3論文。舉例說明如下。

某論文中對科研工作[1]和[2]的描述如下:

An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.

參賽者需要根據這段科研描述從論文庫中檢索與[1][2]相關工作最匹配論文。

在本例中:

與工作[1]最匹配的論文題目應該是:

[1] BERT: Pre-training of deep bidirectional transformers for language understanding.

與工作[2]最匹配的論文題目應該是:

[2] Relational inductive biases, deep learning, and graph networks.

由上述分析可知,該任務是經典的檢索排序任務,即根據文本Query從候選Documents中找出Top N個最相關的Documents,核心技術包括文本語義理解和搜索排序。

2.1 評測數據

本次評測數據分爲論文候選集、訓練集、驗證集和測試集四個部分,各部分數據的表述如表1所示:

表1 評測數據分析表

對本次評測任務及數據分析可以發現本次評測存在以下特點:

  • 與工業界的實際場景類似,本次任務數據量規模比較大,要求制定方案時需要同時考慮算法性能和效果,因此相關評測方案可以直接落地應用或有間接參考的價值;
  • 爲了保證方案具有一定落地實用價值,本任務要求測試集的結果需要在48小時內提交,這也對解決方案的整體效率提出了更高的要求,像常見的使用非常多模型的融合提升方案,在本評測中就不太適用;
  • 跟自然語言處理領域的一般任務不同,本次評測任務中數據多來源於生命科學領域,存在較多的專有詞彙和固定表述模式,因此一些常見的方法模型(例如在通用語料上預訓練的BERT、ELMo等預訓練模型)在該任務上的直接應用是不合適的,這也是本次任務的難點之一。

2.2 評測指標

本次評測使用的評價指標爲Mean Average Precision @3 (MAP@3), 形式如下:

其中,|U|是需要預測的description總個數,P(k)是在k處的精度,n是paper個數。舉例來說,如果在第一個位置預測正確,得分爲1;第二個位置預測正確,得分爲1/2;第三個位置預測正確,得分爲1/3。

3. 模型方法

通過對評測數據、任務和評價指標等分析,綜合考量方案的效率和精準性後,本次評測中使用的算法架構包括“檢索召回”和“精準排序”兩個階段。其中,檢索召回階段負責從候選集中高效快速地召回候選Documents,從而縮減問題規模,降低排序階段的複雜度,此階段注重召回算法的效率和召回率;精準排序階段負責對召回數據進行重排序,採用Learning to Rank相關策略進行排序最優解求解。

3.1 檢索召回

  • 目標任務:使用高效的匹配算法對候選集進行粗篩,爲後續精排階段縮減候選排序的數據規模。
  • 性能要求:召回階段的方案需要權衡召回覆蓋率和算法效率兩個指標,一方面召回覆蓋率決定了後續精排算法的效果上限,另一方面單純追求覆蓋率而忽視算法效率則不能滿足評測時效性的要求。
  • 檢索召回方案:比賽過程中對比實驗了兩種召回方案,基於“文本語義向量表徵“和“基於空間向量模型 + Bag-of-Ngram”。由於本任務文本普遍較長且專有名詞較多等數據特點,實驗表明“基於空間向量模型 + Bag-of-Ngram”的召回方案效果更好,下表中列出了使用的相關模型及其實驗結果(recall@200)。可以看到相比於傳統的BM25和TFIDF等算法,F1EXP、F2EXP等公理檢索模型(Axiomatic Retrieval Models)可以取得更高的召回覆蓋率,該類模型增加了一些公理約束條件,例如基本術語頻率約束,術語區分約束和文檔長度歸一化約束等等。

F2EXP定義如下

其中,Q表示查詢query ,D表示候選文檔,C(t, Q)是詞t在Q中的頻次,|D|表示文檔長度,avdl爲文檔的平均長度,N爲文檔總數,df(t)爲詞t的文檔頻率。

爲了提升召回算法的效果,我們使用倒排索引技術對數據進行建模,然後在此基礎上實現了F1EXP、DFR、F2EXP、BM25、TFIDF等多種檢索算法,極大了提升了召回部分的運行效率。爲了平衡召回率和計算成本,最後使用F1EXP、BM25、TFIDF 3種算法各召回50條結果融合作爲後續精排候選數據,在驗證集上測試,召回覆蓋率可以到70%。

3.2 精準排序

精排階段基於Learning to Rank的思想進行方案設計,提出了兩種解決方案,一種是基於Pairwise-BERT的方案,另一種是基於LightGBM的方案,下面分別進行介紹:

1) 基於BERT的排序模型

BERT是近年來NLP領域最重大的研究進展之一,本次評測中,我們也嘗試引入BERT並對原始模型使用Pointwise Approach的模式進行改進,引入Pairwise Approach模式,在排序任務上取得了一定的效果提升。原始BERT 使用Pointwise模式把排序問題看做單文檔分類問題,Pointwise優化的目標是單條Query與Document之間的相關性,即迴歸的目標是label。而Pairwise方法的優化目標是兩個候選文檔之間的排序位次(匹配程度),更適合排序任務的場景。具體來說,對原始BERT主要有兩點改進,如下圖中所示:

  • 改進訓練樣本構造形式:Pointwise模式下樣本是按照<query,doc,label>形式構造輸入,Pairwise模式下樣本按照<query,doc1,doc2>形式進行構造,其中Query與Doc1的匹配程度大於與Doc2的匹配程度。</query,doc1,doc2></query,doc,label>
  • 改進模型優化目標:Pointwise模式下模型使用的Cross Entropy Loss作爲損失函數,優化目標是提升分類效果,而Pairwise模式下模型使用Hing Loss作爲損失函數,優化目標是加大正例和負例在語義空間的區分度。

在基於BERT進行排序的過程中,由於評測數據多爲生命科學領域的論文,我們還使用了SciBERT和BioBERT等基於特定領域語料的預訓練BERT模型,相比Google的通用BERT較大的效果提升。

2) 基於LightGBM的排序模型

不過,上面介紹的基於BERT的方案構建的端到端的排序學習框架,仍然存在一些不足。首先,BERT模型的輸入最大爲512個字符,對於數據中的部分長語料需要進行截斷處理,這就損失了文本中的部分語義信息;其次,本任務中語料多來自科學論文,跟已有的預訓練模型還是存在偏差,這也在一定程度上限制了模型對數據的表徵能力。此外,BERT模型網絡結構較爲複雜,在運行效率上不佔優勢。綜合上述三方面的原因,我們提出了基於LightGBM的排序解決方案。

LightGBM是微軟2017年提出,比Xgboost更強大、速度更快的模型。LightGBM在傳統的GBDT基礎上有如下創新和改進:

  • 採用Gradient-based One-Side Sampling(GOSS)技術去掉很大部分梯度很小的數據,只使用剩下的去估計信息增益,避免低梯度長尾部分的影響;
  • 採用Exclusive Feature Bundling(EFB)技術以減少特徵的數量;
  • 傳統GBDT算法最耗時的步驟是使用Pre-Sorted方式找到最優劃分點,其會在排好序的特徵值上枚舉所有可能的特徵點,而LightGBM中會使用histogram算法替換了GBDT傳統的Pre-Sorted,犧牲一定精度換取了速度;
  • LightGBM採用Leaf-Wise生長策略,每次從當前所有葉子中找到分裂增益最大的一個葉子,然後分裂,如此循環。因此同Level-Wise相比,在分裂次數相同的情況下,Leaf-Wise可以降低更多的誤差,得到更好的精度。

基於Light GBM的方案需要特徵工程的配合。在我們實踐中,特徵主要包括Statistic Semantic Features(包括F1EXP、F2EXP、TFIDF、BM25等)、Distributed Semantic Features(包括Glove、Doc2vec等)和Ranking Features(召回階段的排序序列特徵),並且這些特徵分別從標題、摘要、關鍵詞等多個維度進行抽取,最終構建成特徵集合,配合LightGBM的pairwise模式進行訓練。該方法的優點是運行效率高,可解釋性強,缺點是特徵工程階段比較依賴人工對數據的理解和分析。

4. 實驗結果

我們分別對比實驗了不同方案的效果,可以發現無論是基於BERT的排序方案還是基於LightGBM的排序方案,Pairwise的模式都會優於Pointwise的模式,具體實驗數據如表2所示:

表2 不同方案實驗結果

5. 總結與展望

本文主要介紹了美團搜索與NLP部在WSDM Cup 2020 Task 1評測中的實踐方案,我們構建了召回+排序的整體技術框架。在召回階段引入多種召回策略和倒排索引保證召回的速度和覆蓋率;在排序階段提出了基於Pairwise模式的BERT排序模型和基於LightGBM的排序模型。最終,美團也非常榮幸地取得了榜單第一名的成績。

當然,在對本次評測進行復盤分析後,我們認爲該任務還有較大提升的空間。首先在召回階段,當前方案召回率爲70%左右,可以嘗試新的召回方案來提高召回率;其次,在排序階段,還可以嘗試基於Listwise的模式進行排序模型的訓練,相比Pairwise的模式,Listwise模式下模型輸入空間變爲Query跟全部Candidate Doc,理論上可以使模型學習到更好的排序能力。後續,我們還會再不斷進行優化,追求卓越。

6. 落地應用

本次評測任務與搜索與NLP部智能客服、搜索排序等業務中多個關鍵應用場景高度契合。目前,我們正在積極試驗將獲獎方案在智能問答、FAQ推薦和搜索核心排序等場景進行落地探索,用最優秀的技術解決方案來提升產品質量和服務水平,努力踐行“幫大家吃得更好,生活更好”的使命。

參考文獻

[1] Fang H, Zhai C X. An exploration of axiomatic approaches to information retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. 2005: 480-487.

[2] Wang Y, Yang P, Fang H. Evaluating Axiomatic Retrieval Models in the Core Track[C]//TREC. 2017.

[3] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[4] Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

[5] Beltagy I, Lo K, Cohan A. SciBERT: A pretrained language model for scientific text[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 3606-3611.

[6] Chen W, Liu S, Bao W, et al. An Effective Approach for Citation Intent Recognition Based on Bert and LightGBM. WSDM Cup 2020, Houston, Texas, USA, February 2020.

[7] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[C]//Advances in neural information processing systems. 2017: 3146-3154.

作者介紹

帥朋,美團AI平臺搜索與NLP部。

會星,美團AI平臺搜索與NLP部NLP中心對話平臺負責人,研究員。

仲遠,美團AI平臺搜索與NLP部負責人,高級研究員、高級總監。

本文轉載自公衆號美團技術團隊(ID:meituantech)。

原文鏈接

https://mp.weixin.qq.com/s/k5wNtV057c7cMrjSdQAULw

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章