FinancialDatasets
SmoothNLP 金融文本數據集(公開) | Public Financial Datasets for NLP Researches
數據一覽
由於github存儲有限, 如需全量數據集, 請聯繫: [email protected]
數據名稱 | 數據字段 | 樣本量 | 總量 | 下載鏈接 |
---|---|---|---|---|
企業工商信息 | 名稱 ,公司名稱 ,公司介紹 ,工商 ,地址 ,工商註冊id ,成立時間 ,法人代表 ,註冊資金 ,統一信用代碼 ,網址 |
1萬 | 50萬 - (上市及中小型企業) | 下載 |
金融訊息新聞 | title-新聞標題 ,content-新聞內容 ,pub_ts-發稿日期 |
2萬 | 210萬 | 下載 |
專欄資訊 | title-新聞標題 ,content-新聞內容 ,pub_ts-發稿日期 |
1萬 | 58萬 | 下載 |
推薦研究方向
- Embedding (Word2Vec, Bert, 等)
- 實體識別
- 無監督聚類: 基於企業描述信息, 進行競品聚類
- 企業行業分類