三大金融文本語料(工商,新聞,資訊) - NLP語料

FinancialDatasets

SmoothNLP 金融文本數據集(公開) | Public Financial Datasets for NLP Researches

數據一覽

由於github存儲有限, 如需全量數據集, 請聯繫: [email protected]

數據名稱 數據字段 樣本量 總量 下載鏈接
企業工商信息 名稱,公司名稱,公司介紹,工商,地址,工商註冊id,成立時間,法人代表,註冊資金,統一信用代碼,網址 1萬 50萬 - (上市及中小型企業) 下載
金融訊息新聞 title-新聞標題,content-新聞內容,pub_ts-發稿日期 2萬 210萬 下載
專欄資訊 title-新聞標題,content-新聞內容,pub_ts-發稿日期 1萬 58萬 下載

推薦研究方向

  • Embedding (Word2Vec, Bert, 等)
  • 實體識別
  • 無監督聚類: 基於企業描述信息, 進行競品聚類
  • 企業行業分類

數據展示

企業工商信息

在這裏插入圖片描述

金融資訊新聞

在這裏插入圖片描述

專欄資訊

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章