谷歌開放問答搜索最大語料庫Natural Questions，包含30萬自然發生提問

開放域問答（QA）是自然語言理解（NLU）中的基準任務，旨在模擬人類查找信息，通過閱讀和理解整個文檔來查找答案的過程。舉例來說，對於一個用自然語言表達的問題（“爲什麼天是藍色的？”），QA 系統應該能夠做到在閱讀網頁（例如維基百科頁面）之後返回正確的答案，即使答案有點複雜和冗長。

然而，目前業界仍沒有足夠大且公開可用的自然問題來源（即人們爲找尋信息而提出的問題）以及可用於訓練和評估QA模型的答案。這是因爲彙集用於問答的高質量數據集需要大量的實際問題來源，並耗費大量人力尋找正確答案。

爲了促進QA的研究進展，我們很高興地宣佈開放自然問題（NQ ，Natural Questions），這是一個用於訓練和評估開放域問答系統的新型大型語料庫，也是第一個模仿人類尋找答案整個過程的語料庫。NQ規模巨大，包括 300,000 個自然發生的問題，以及來自維基百科頁面帶有人類註釋的答案，用於訓練QA系統。另外，該語料庫還包括 16,000 個示例，其中 5 個不同的註釋器提供了答案（針對相同的問題），這對於評估經過學習的QA系統的性能非常有用。回答NQ中的問題需要比回答普通問題需要更加深入的理解——這對於計算機來說已經非常容易。此外，我們還宣佈發起一個基於這些數據的挑戰，以推進計算機自然語言理解發展。

數據

NQ是首個使用自然發生提問的數據集，它通過閱讀整個頁面來查找答案，而不是從短段中提取答案。爲了創建NQ，我們從用戶在Google搜索引擎中進行的真實、匿名、彙總的查詢開始。然後，我們讓註釋器通過閱讀整個維基百科頁面來尋找答案。註釋器會查找涵蓋可能推斷出答案需要的所有信息的長答案，以及用一個或多個名稱簡潔地回答問題的簡短答案。經測試，NQ語料庫中的註釋質量準確度已達 90％。

我們的論文《Natural Questions ：問答研究的基準》已在計算語言學協會發表，它完整地描述了數據收集過程。查看數據集中的更多示例，請查看NQ網站。

挑戰

NQ旨在使QA系統能夠閱讀和理解整篇維基百科文章，但該文章不一定包含問題的答案。系統需要首先判斷問題是否定義完好，可以找到答案，因爲許多問題都是錯誤的假設，或者過於含糊不清，無法得到簡明扼要的回答。然後，NQ需要確定維基百科頁面中是否包含推斷答案所需的信息。我們認爲，長答案識別任務，即找到推斷答案所需的所有信息，需要更深層次的語言理解，而不是在知道長答案之後再找到簡短答案。

我們希望NQ的發佈以及相關的挑戰將有助於推動開發出更有效和更強大的QA系統。我們鼓勵NLU 社區參與，已縮小當前最先進方法的表現與人類最優表現之間的巨大差距。你可以訪問挑戰賽頁面查看排行榜，瞭解更多信息。

原文鏈接：
https://ai.googleblog.com/

谷歌開放問答搜索最大語料庫Natural Questions，包含30萬自然發生提問

數據

挑戰

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

FolkMq v1.4.6 發佈（可以內嵌的消息中間件）

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

01 穩定性（一）如何應對事故並做好覆盤？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

京東面試：如何進行JVM調優？

Stream流常用方法總結

谷歌開放問答搜索最大語料庫Natural Questions，包含30萬自然發生提問

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結