DeepMind Q&A Dataset-那些著名的數據集

2015年Hermann 等創立的兩個非常棒的用於問答研究的數據集, 分別包含90k和197k個文檔,,每個文檔平均有4個問題。每個問題都是一個帶有一個缺失單詞/短語的句子,可以從隨附的文檔/上下文中找到。原作者熱心地發佈了腳本和附帶的文檔來生成數據集,但是並不太好用。紐約大學整理了數據集。我們又在該數據集基礎上利用斯坦福nlp實驗的分詞工具進一步加工。

CNN

該數據集包含來自CNN新聞文章的文檔和附帶的問題。 有大約90k文件和380k問題。 提供問題集合,它應該足以從原始論文中重現設置,以及'stories /',這對於此數據集的其他用途非常有用。 我也提供原始的html文件,但我不能保證這些文件是完整

Daily Mail

此數據集包含每日郵報新聞文章中的文檔和隨附問題。 大約有197k文件和879k問題。 我正在提供'questions /',它應該足以從原始論文中重現設置,以及'stories /',這對於此數據集的其他用途非常有用。 我也提供原始的html文件,但我不能保證這些文件是完整的。

數據整理後百度網盤提供,或者私信

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章