word2vec

單詞向量化表示

word2vec 下分爲兩個模型CBOW與Skip-gram ，分別包含Hierarchical Softmax和 Negative Sampling兩個方法；

1. 連續詞袋模型（CBOW）與跳字模型（Skip-gram）

單詞W;
詞典D = {W₁, W₂, ..., W_N }，由單詞組成的集合；（無序的，由下標即可找到這個單詞，鍵值對）
語料庫C, 由單詞組成的文本序列；（強調有順序性，可以是重複的）
單詞Wt的上下文是語料庫中由單詞W_t的前c個單詞和後c個單詞組成的文本序列，W_t稱爲中心詞；（是語料庫的真子集）

　　　　Context(W_t) = (W_t-c, ..., W_t-2,W_t-1, W_t+1, W_t+2,..., W_t+c)

連續詞袋模型（CBOW，Continuous Bag-of-words Model）假設中心詞由該詞在文本序列中的上下文來生成。（上圖中是前兩個和後兩個組成的上下文來決定W_t中心詞）

跳字模型（Skip-gram）假設中心詞生成該詞在文本序列中的上下文。（由W_t來決定它所對應的上下文）

2. 基於層序softmax（Hierarchical softmax）方法的連續詞袋模型訓練

基於層序softmax方法的連續詞袋模型網絡結構：

Context(W)₁是W這個單詞的上下文，相當於之前所說的W_t-c，W_2c相當於W_t+c ；中心詞由前c個後c個決定；

投影層，進行遍歷累加得到X_w；

輸出層哪個單詞是我可以決定的，哪個是決定不了的；N個單詞，每個單詞的概率；採用哈夫曼樹近似計算，從輸入向葉子節點的映射關係，從1~N個葉子節點，這樣子就不需要每個葉子節點都去遍歷了，只需要從根結點向它所對應的葉子節點路徑的計算過程，哈夫曼樹是個二叉樹全路徑最短二叉樹，時間複雜度從O(n)到n個葉子節點組成的二叉樹，最短堆二叉樹時間複雜度爲O(log₂n-1)；數量級會少很多；權職越高的單詞離根結點最近，哈夫曼編碼越短；