DeepMind Q&A Dataset-那些著名的數據集

原創

2018-11-07 07:03

2015年Hermann 等創立的兩個非常棒的用於問答研究的數據集，分別包含90k和197k個文檔，，每個文檔平均有4個問題。每個問題都是一個帶有一個缺失單詞/短語的句子，可以從隨附的文檔/上下文中找到。原作者熱心地發佈了腳本和附帶的文檔來生成數據集,但是並不太好用。紐約大學整理了數據集。我們又在該數據集基礎上利用斯坦福nlp實驗的分詞工具進一步加工。

CNN

Questions: here
Stories: here
Raw HTML: here

該數據集包含來自CNN新聞文章的文檔和附帶的問題。有大約90k文件和380k問題。提供問題集合，它應該足以從原始論文中重現設置，以及'stories /'，這對於此數據集的其他用途非常有用。我也提供原始的html文件，但我不能保證這些文件是完整

Daily Mail

Questions: here
Stories: here
Raw HTML: here

此數據集包含每日郵報新聞文章中的文檔和隨附問題。大約有197k文件和879k問題。我正在提供'questions /'，它應該足以從原始論文中重現設置，以及'stories /'，這對於此數據集的其他用途非常有用。我也提供原始的html文件，但我不能保證這些文件是完整的。

數據整理後百度網盤提供，或者私信

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DeepMind Q&A Dataset-那些著名的數據集

CNN

Daily Mail

論文神器 VSCode Latex 中文 1.創建字體目錄 2.拷貝windows字體文件 3.安裝字體 5 ubuntu安裝latex 6 安裝vscode latex 7 Example

數學課難易程度

作用域摘要

Python 函數化編程 1 無限迭代器 2 處理輸入序列迭代器 3 組合生成器

數的記號 1 進制的多樣性 2 進制多樣性原因

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結