中文詞向量學習記錄-綜述

最近打算準備畢設,所以需要仔細瞭解一下中文詞向量的最近發展,發現一個比較完整的系列文章:

參考原文鏈接:https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_finished

Paper

  1. Component-Enhanced Chinese Character Embeddings
    這是一篇2015年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文,作者來自於香港理工大學 — 李嫣然。

介紹:在本文中,考慮將每個漢字的組件構成一個component列表(可以從在線新華詞典中獲取相應的component列表),其中將部首信息放在列表的最前面,E:component列表,C:上下文詞,Z:目標詞。  &&:結合E和C,基於CBOW框架計算出當前目標詞的一個詞向量表示。

  1. Joint Learning of Character and Word Embeddings
    這是一篇2015年發表在IJCAI (International Joint Conference on Artificial Intelligence)會議上的論文,作者來自於清華大學 — 陳新雄,徐磊。

介紹:這是一篇基於漢字的CWE模型:基於已有的詞向量,引入漢字來增強詞的效果。核心思想:把CBOW中的詞替換成詞和字的聯合表示,w:word  embedding, c:character embedding,這種聯合表示既可以是addition,也可以是concate.

  1. Improve Chinese Word Embeddings by Exploiting Internal Structure
    這是一篇2016年發表在NAACL-HLT(Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies)會議上的論文,作者來自於中國科學技術大學 — Jian Xu。

介紹:基於前面的CWE模型,雖然CWE已經考慮了詞的內部組成,增加了語義信息的表示,然而,卻忽略了一些問題,在每一個詞和他們的組成部分(單字)之間,CWE把單字和詞之間的貢獻作爲一致的,這篇論文提出,他們之間的貢獻度應該是不同的,CWE忽略了這一問題,本文要利用外部語言來獲取語義信息,計算詞與單字之間的相似度來表示其貢獻的不同,完善相關工作。
論文提出了聯合學習詞與字的方法,該方法可以消除中文單字的歧義性,也可以區別出詞內部無意義的組成,實驗結果表明在 Word SimilarityText Classification 上驗證了其有效性。

  1. Multi-Granularity Chinese Word Embedding
    這是一篇2016年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文,作者來自於信息內容安全技術國家工程實驗室 — 殷榮超。

介紹:沒有仔細閱讀

  1. Learning Chinese Word Representations From Glyphs Of Characters
    這是一篇2017年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文,作者來自於臺灣大學 — Tzu-Ray Su 和 Hung-Yi Lee。

介紹:這是一篇基於像素的GWE模型,這篇論文的出發點也很新穎,中文漢字可以認爲是由圖形組件組成的,具有豐富的語義信息,基於此,提出了一個新的學習中文詞向量的方法,通過圖形字符(character glyphs)來增強詞的表示,character glyphs通過圖像卷積從位圖(bitmaps)中編碼得來,character glyphs特徵加強了word的表示,也提高了character embedding。這篇論文雖然是在繁體中文進行的改進,不過idea同樣也可以應用在簡體中文中。在 Word SimilarityWord Analogy 上驗證了其實驗效果。該模型部分也是分爲了幾個階段,

第一個階段是通過convAE從位圖中抽取glyph特徵。

第二階段是在已有的中文詞向量模型中進行改進提高,像CWE,MGW模型。

第三階段是直接使用glyph特徵學習中文詞向量表示。

  1. Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
    這是一篇2017年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文,作者來自於香港科技大學 — Jinxing Yu。

介紹:中文漢字包含了豐富的語義信息,這篇論文提出了一個聯合學習word,character和更加細粒度的subcharacter的方法來學習word embedding.其中:

w_i代表目標詞;

w_i+1,w_i-1代表上下文詞;

c_i-1,c_i+1代表上下文詞的character;

s_i+1,s_i-1代表上下文詞的subcharacter(radical),

s_i代表目標詞的subcharacter(radical)。

  1. Enriching Word Vectors with Subword Information
    這是一篇2017年發表在ACL(Association for Computational Linguistics)會議上的論文,作者來自於Facebook AI Research — Piotr Bojanowski ,Edouard Grave 。

介紹:這篇文章是這個系列中的唯一一篇針對西方語言的詞向量訓練方法,其主要是因爲爲後續的cw2vec的提出奠定了很好的基礎。在英文中,每一個單詞由若干個字母組成,單詞的詞義和其中的組成是有很大的關係的,這篇論文的核心思想就是採用單詞的n-gram特徵學習詞向量的表示,並取得了很好的實驗效果。

這篇論文提出的方法也很簡單,在每個word的前後分別添加 < 與 > 字符,作爲這個單詞的開始於結束,還有就是對於只有一個字母的word進行表示,然後抽取其n-gram詞袋特徵,具體來說,以3-gram爲例,單詞where,可以被表示成<wh,whe,her,ere,re>,單詞a,可以表示爲<a>,這篇論文抽取的是3 至 6的n-gram,那麼where的所有表示就是,

3-ngram:<wh,whe,her,ere,re>,<whe

4-gram:<whe,wher,here,ere>

5-gram:<wher,where,here>

6-gram:<where,where>

以上就是where的所有表示,除此之外,還把原單詞<where>加入到n-gram中,最後word採用的是所有的n-gram的和。

  1. Radical Enhanced Chinese Word Embedding
    這是一篇2018年發表在CCL2018(The Seventeenth China National Conference on Computational Linguistics, CCL 2018)會議上的論文,作者來自於電子科技大學 — Zheng Chen 和 Keqi Hu 

介紹:模型是基於CBOW來進行的改進,通過Radical(部首)來增強word embedding,稱之爲RECWE模型,具體的模型結構如下圖所示,模型結構分爲了兩個部分:
左邊的是word prediction module,是一個典型的CBOW模型結構,其中w_i代表的是目標詞,w_i+1、w_i-1代表的是上下文詞,h_i1代表是的上下文詞的隱層表示。
右邊是 sub-information prediction module,它與 word prediction module並行存在,其中的c、s、r與word prediction module 中的w相對應,分別是上下文詞與目標詞的character、component、radical,h_i2代表的是左右的特徵隱層表示。在這部分,也存在CWE模型中一字多義,音譯詞等影響,他們考慮使用word來構建h_i2。對 h_i1 和 h_i2 都採用了average處理

  1. cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
    這是一篇2018年發表在AAAI 2018(Association for the Advancement of Artificial Intelligence 2018)會議上的論文,作者來自於螞蟻金服人工智能部 — 曹紹升 。

介紹:前面的中文詞向量的訓練都是結合了漢字的部首信息,這一篇文章提出一個新穎的點:基於漢字的筆畫進行捕獲單詞的信息。提出了“n元筆畫”的概念。所謂“n元筆畫”,即就是中文詞語(或漢字)連續的n個筆畫構成的語義結構。

cw2vec在Skip-Gram基礎之上進行改進,把詞語的n-gram筆畫特徵信息代替詞語進行訓練,cw2vec模型如下圖。

所以:

 

  1. Glyce: Glyph-vectors for Chinese Character Representations
    2019年,香儂科技提出了一種漢字字形向量 Glyce。根據漢字的進化過程,採用了多種漢字古今文字和多種書寫風格,專爲中文象形文字建模設計了一種田字格 CNN架構。Glyce 在13個任務上面達到了很好的性能。

介紹:

References

[1] Component-Enhanced Chinese Character Embeddings
[2] Joint Learning of Character and Word Embeddings
[3] Improve Chinese Word Embeddings by Exploiting Internal Structure
[4] Multi-Granularity Chinese Word Embedding
[5] Learning Chinese Word Representations From Glyphs Of Characters
[6] Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
[7] Enriching Word Vectors with Subword Information
[8] cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
[9] Radical Enhanced Chinese Word Embedding
[10] Glyce: Glyph-vectors for Chinese Character Representations

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章