最近打算準備畢設，所以需要仔細瞭解一下中文詞向量的最近發展，發現一個比較完整的系列文章：

參考原文鏈接：https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_finished

Paper

Component-Enhanced Chinese Character Embeddings
這是一篇2015年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文，作者來自於香港理工大學 — 李嫣然。

介紹：在本文中，考慮將每個漢字的組件構成一個component列表(可以從在線新華詞典中獲取相應的component列表)，其中將部首信息放在列表的最前面，E：component列表，C：上下文詞，Z：目標詞。 &&：結合E和C，基於CBOW框架計算出當前目標詞的一個詞向量表示。

Joint Learning of Character and Word Embeddings
這是一篇2015年發表在IJCAI (International Joint Conference on Artificial Intelligence)會議上的論文，作者來自於清華大學 — 陳新雄，徐磊。

介紹：這是一篇基於漢字的CWE模型：基於已有的詞向量，引入漢字來增強詞的效果。核心思想：把CBOW中的詞替換成詞和字的聯合表示，w:word embedding, c:character embedding,這種聯合表示既可以是addition，也可以是concate.

Improve Chinese Word Embeddings by Exploiting Internal Structure
這是一篇2016年發表在NAACL-HLT(Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies)會議上的論文，作者來自於中國科學技術大學 — Jian Xu。

介紹：基於前面的CWE模型，雖然CWE已經考慮了詞的內部組成，增加了語義信息的表示，然而，卻忽略了一些問題，在每一個詞和他們的組成部分（單字）之間，CWE把單字和詞之間的貢獻作爲一致的，這篇論文提出，他們之間的貢獻度應該是不同的，CWE忽略了這一問題，本文要利用外部語言來獲取語義信息，計算詞與單字之間的相似度來表示其貢獻的不同，完善相關工作。
論文提出了聯合學習詞與字的方法，該方法可以消除中文單字的歧義性，也可以區別出詞內部無意義的組成，實驗結果表明在 Word Similarity 和 Text Classification 上驗證了其有效性。

Multi-Granularity Chinese Word Embedding
這是一篇2016年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文，作者來自於信息內容安全技術國家工程實驗室 — 殷榮超。

介紹：沒有仔細閱讀

Learning Chinese Word Representations From Glyphs Of Characters
這是一篇2017年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文，作者來自於臺灣大學 — Tzu-Ray Su 和 Hung-Yi Lee。

介紹：這是一篇基於像素的GWE模型，這篇論文的出發點也很新穎，中文漢字可以認爲是由圖形組件組成的，具有豐富的語義信息，基於此，提出了一個新的學習中文詞向量的方法，通過圖形字符（character glyphs）來增強詞的表示，character glyphs通過圖像卷積從位圖（bitmaps）中編碼得來，character glyphs特徵加強了word的表示，也提高了character embedding。這篇論文雖然是在繁體中文進行的改進，不過idea同樣也可以應用在簡體中文中。在 Word Similarity 和 Word Analogy 上驗證了其實驗效果。該模型部分也是分爲了幾個階段，

第一個階段是通過convAE從位圖中抽取glyph特徵。

第二階段是在已有的中文詞向量模型中進行改進提高，像CWE，MGW模型。

第三階段是直接使用glyph特徵學習中文詞向量表示。

Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
這是一篇2017年發表在EMNLP(Empirical Methods in Natural Language Processing)會議上的論文，作者來自於香港科技大學 — Jinxing Yu。

介紹：中文漢字包含了豐富的語義信息，這篇論文提出了一個聯合學習word,character和更加細粒度的subcharacter的方法來學習word embedding.其中：

w_i代表目標詞；

w_i+1，w_i-1代表上下文詞；

c_i-1，c_i+1代表上下文詞的character；

s_i+1，s_i-1代表上下文詞的subcharacter(radical)，

s_i代表目標詞的subcharacter(radical)。

Enriching Word Vectors with Subword Information
這是一篇2017年發表在ACL(Association for Computational Linguistics)會議上的論文，作者來自於Facebook AI Research — Piotr Bojanowski ，Edouard Grave 。

介紹：這篇文章是這個系列中的唯一一篇針對西方語言的詞向量訓練方法，其主要是因爲爲後續的cw2vec的提出奠定了很好的基礎。在英文中，每一個單詞由若干個字母組成，單詞的詞義和其中的組成是有很大的關係的，這篇論文的核心思想就是採用單詞的n-gram特徵學習詞向量的表示，並取得了很好的實驗效果。

這篇論文提出的方法也很簡單，在每個word的前後分別添加 < 與 > 字符，作爲這個單詞的開始於結束，還有就是對於只有一個字母的word進行表示，然後抽取其n-gram詞袋特徵，具體來說，以3-gram爲例，單詞where，可以被表示成<wh，whe，her，ere，re>，單詞a，可以表示爲<a>，這篇論文抽取的是3 至 6的n-gram，那麼where的所有表示就是，

3-ngram：<wh，whe，her，ere，re>，<whe，

4-gram：<whe，wher，here，ere>，

5-gram：<wher，where，here>，

6-gram：<where，where>，

以上就是where的所有表示，除此之外，還把原單詞<where>加入到n-gram中，最後word採用的是所有的n-gram的和。

Radical Enhanced Chinese Word Embedding
這是一篇2018年發表在CCL2018(The Seventeenth China National Conference on Computational Linguistics, CCL 2018)會議上的論文，作者來自於電子科技大學 — Zheng Chen 和 Keqi Hu

介紹：模型是基於CBOW來進行的改進，通過Radical（部首）來增強word embedding，稱之爲RECWE模型，具體的模型結構如下圖所示，模型結構分爲了兩個部分：
左邊的是word prediction module，是一個典型的CBOW模型結構，其中w_i代表的是目標詞，w_i+1、w_i-1代表的是上下文詞，h_i1代表是的上下文詞的隱層表示。
右邊是 sub-information prediction module，它與 word prediction module並行存在，其中的c、s、r與word prediction module 中的w相對應，分別是上下文詞與目標詞的character、component、radical，h_i2代表的是左右的特徵隱層表示。在這部分，也存在CWE模型中一字多義，音譯詞等影響，他們考慮使用word來構建h_i2。對 h_i1 和 h_i2 都採用了average處理

cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
這是一篇2018年發表在AAAI 2018(Association for the Advancement of Artificial Intelligence 2018)會議上的論文，作者來自於螞蟻金服人工智能部 — 曹紹升。

介紹：前面的中文詞向量的訓練都是結合了漢字的部首信息，這一篇文章提出一個新穎的點：基於漢字的筆畫進行捕獲單詞的信息。提出了“n元筆畫”的概念。所謂“n元筆畫”，即就是中文詞語（或漢字）連續的n個筆畫構成的語義結構。

cw2vec在Skip-Gram基礎之上進行改進，把詞語的n-gram筆畫特徵信息代替詞語進行訓練，cw2vec模型如下圖。

所以：

Glyce: Glyph-vectors for Chinese Character Representations
2019年，香儂科技提出了一種漢字字形向量 Glyce。根據漢字的進化過程，採用了多種漢字古今文字和多種書寫風格，專爲中文象形文字建模設計了一種田字格 CNN架構。Glyce 在13個任務上面達到了很好的性能。

介紹：

References

[1] Component-Enhanced Chinese Character Embeddings
[2] Joint Learning of Character and Word Embeddings
[3] Improve Chinese Word Embeddings by Exploiting Internal Structure
[4] Multi-Granularity Chinese Word Embedding
[5] Learning Chinese Word Representations From Glyphs Of Characters
[6] Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components
[7] Enriching Word Vectors with Subword Information
[8] cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
[9] Radical Enhanced Chinese Word Embedding
[10] Glyce: Glyph-vectors for Chinese Character Representations

中文詞向量學習記錄-綜述

Paper

References

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

nodejs學習06——小案例

評估統計算法在銀行僞造鈔票檢測中的價值

C# Xmlserializer 程序集內存泄露

Java ThreadPoolShutdown

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

詞向量學習總結 [獨熱表示-分佈式表示-word2vec -Glove - fast text - ELMO - BERT]

在excel中構建lift table時遇到的$絕對引用、相對引用、混合引用的使用

中文詞向量的訓練

劍指offer在線編程（08-14）【9】

機器學習面試題集(個人疑惑的題)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結