原创 cs224n 2019 Lecture 7: Vanishing Gradients and Fancy RNNs

本節課內容概述: 本節課主要解釋了梯度消失和梯度爆炸問題以及其他類型的RNN 上節課將的是RNN以及爲什麼RNN適用於語言模型。 因爲它可以記住前面的信息。 梯度消失問題導致了新RNN的出現:LSTM和GRU 其他修復梯度消失或者梯度爆炸

原创 cs224n 2019 Machine Translation, Sequence-to-sequence and Attention

本節課內容: 介紹一個新的任務:機器翻譯 介紹一個新的神經架構:序列到序列的模型 介紹一種新的神經技術:注意力,用於提升序列到序列的模型 第一部分:之前的機器翻譯方法 1950s:系統是基於規則實現的,使用一個雙語字典進行映射查詢 199

原创 CS224N 2019 Lecture 6: RNN:Language Models and Recurrent Neural Network

本次課主要介紹了兩個模型n-gram和RNN 語言模型 語言模型是一個預測一句話中的下一個單詞的任務 也就是說,給定單詞[x1,x2,x3,x4...xt],預測下一個單詞x(t+1)是什麼單詞.x(t+1)是給定詞彙表V={w1,w2,

原创 cs224n 2019 Lecture 9: Practical Tips for Final Projects

主要內容: 項目的選擇:可以選擇默認的問答項目,也可以自定義項目 如何發現自定義項目 如何找到數據集 門神經網絡序列模型的複習 關於機器翻譯的一些話題 查看訓練結果和進行評估 一、項目的選擇 默認項目:在SQuAD上構建一個文本問答系統

原创 transformer理解

結構由encoder和decoder構成。 1.1 encoder       由N=6個相同的layer組成,每個layer如上圖左側單元所示。       每個layer由兩個sub-layer組成,分別是Multi-Head se

原创 深度學習的優化算法

原文鏈接:https://ai.yanxishe.com/page/TextTranslation/1971 參考博客:https://ai.yanxishe.com/page/TextTran

原创 Attention理解

基礎的Attention叫soft attention a爲h的權重。 那麼重點來了, 權重a是怎麼來的呢?常見有三種方法: 思想就是根據當前解碼“狀態”判斷輸入序列的權重分佈。

原创 nlp自然語言處理面試題

1、word2vec的原理 word2vec是一個把詞語轉化爲對應向量的形式。word2vec中建模並不是最終的目的,其目的是獲取建模的參數,這個過程稱爲fake task。 有兩種實現方法:連續詞袋模型CBOW和skip-gram  

原创 自然語言處理 cs224n課程 Lecture 15: Natural Language Generation

主要內容: 總結目前已經知道的關於NLG的內容 關於解碼算法的更多內容 NLG的任務和神經網絡方法 NLG的評估:一個困難的處境 總結了NLG的研究思路、研究現狀和展望 第一部分:回顧:語言模型和解碼算法 NLG:自然語言生成。生成一段新

原创 自然語言處理 cs224n 2019 Lecture 11: ConvNets for NLP

主要內容 公告 CNN的介紹 用於句子分類的簡單的cnn 各種不同的cnn 用於句子分類的深層cnn Quasi-recurrent Neural Networks 本節課視頻語音聲音字幕跟不上圖像,看的很辛苦,到後半部分也沒聽太懂,老師

原创 自然語言處理 cs224n 2019 Lecture 12: Information from parts of words: Subword Models課程筆記

課程內容 語言學的一點小知識 純粹的字符級別的模型 子單詞模型:Byte Pair Encoding and friends Hybrid character 和單詞級的模型 fastText (這節課也沒怎麼聽懂,以後要邊聽邊做筆記了)

原创 自然語言處理 cs224n 2019 Lecture 13: Contextual Word Representations and Pretraining

上下文詞表示和預訓練 主要內容 詞表示上的映射 Pre-ELMo 和 ELMO ULMfit 和 onward Transformer架構 bert 一、詞表示上的映射 現在爲止,我們基本上可以說我們有一個詞向量的表示了:word2vec

原创 dropout層的理解

原文:https://blog.csdn.net/u013007900/article/details/78120669/  作用:用於減少過擬合。 dropout是指深度學習訓練過程中,對於神經網絡訓練單元,按照一定的概率將其從網絡中移

原创 nlp自然語言處理 cs224n 2019 Lecture 10: (Textual) Question Answering 課堂筆記

本節課主要內容 最終項目的一些提示 問答系統產生的動機和發展歷史 斯坦福大學的SQuAD數據集 斯坦福大學的Attentive Reader 模型 BiDAF 最近的,更進一步的架構 ELMo和BERT模型的概覽、 一、最終項目的建議 論

原创 word2vec模型中訓練出來的詞向量在哪裏

關於word2vec,看了cs224n的視頻,也看了不少博客和知乎,都不太明白這個東西有什麼用。今天有針對性的搜了搜word2vec是怎麼生成word embedding的,才明白。以CBOW爲例,如下圖所示。 簡單的說,word2vec