原创 (四)Transformer中的關鍵

文章目錄一、Transformer的結構是什麼樣的?1.1 Encoder端&Decoder端總覽1.2 Encoder端各個子模塊1.2.1 多頭self-attention模塊1.2.2 前饋神經網絡模塊1.3 Decoder

原创 05.一文詳解KMP算法(一)

空格串:是隻包含空格的串,空格串有內容和長度,而且可以不止一個空格。 空串:零個字符的串。 子串:串中任意個數的連續字符組成的子序列。 串的比較: 取決於它們挨個字母的前後順序 通過組成串的字符之間的編碼來進行(

原创 (三)ELMO

文章目錄一、ELMO的基本原理二、ELMO的訓練過程是什麼樣的?損失函數是什麼?三、ELMO訓練好之後如何使用?四、ELMO的優點是什麼?ELMO爲什麼有效?五、ELMO爲什麼能夠達到區分多義詞的效果?六、ELMO把三種不同的向量

原创 (十二)BN和LN

文章目錄一、神經網絡爲什麼要進行batch norm?二、BN三、LN參考文獻 機器學習領域有個重要假設:IID獨立同分布假設 假設訓練數據和測試數據是滿足相同分佈 獨立同分布假設是通過訓練集得到的模型在測試集能有好效果的基本保障

原创 02.什麼是算法?(算法的時間複雜度分析)

算法是解決特定問題求解步驟的描述,在計算機中表現爲指令的有限序列,並且每條指令表示一個或多個操作 2.1兩種算法的比較 求:一個1+2+3+…+100 # O(n) n = 1 sum = 0 while n <= 100:

原创 (0)NLP的流程

文章目錄一、NLP項目的Pipeline二、word segmentation2.1 最大匹配算法(max matching)2.2 Incorporate Semantic三、文本表示3.1 one-hot representa

原创 (十三)RNN的理解

RNN

原创 03.線性表的順序存儲結構(一)

線性表的抽象數據類型 ADT 線性表(List) Data 線性表的數據對象集合爲{a1,a2,...an},每個元素的類型均爲DataType。 其中除第一個元素a1外,每一個元素有且只有一個直接前驅元素,除了最後一個元素

原创 03.靜態鏈表(三)

對象引用機制,從某種角度也間接實現了指針的某些作用。 用數組來代替指針,來描述單鏈表 首先我們讓數組的元素都是由兩個數據域組成,data和cur。也就是說,數組的每個下標都對應一個data和一個cur。 數據域da

原创 幾句話搞懂什麼是batch

工作實例 最後,讓我們用一個小例子來說明這一點。 假設您有一個包含200個樣本(數據行)的數據集,並且您選擇的Batch大小爲5和1,000個Epoch。 這意味着數據集將分爲40個Batch,每個Batch有5個樣本。每批五個樣

原创 (五)Bert

文章目錄一、Bert的基本原理是什麼?二、BERT 是怎麼用 Transformer 的?三、BERT 的訓練過程是怎麼樣的?3.1 Masked LM3.2 Next Sentence Prediction四、爲什麼 BERT

原创 (十一)關係抽取方法

文章目錄一、基於規則的方法二、基於監督學習的方法三、Bootstrap算法四、Snowball 一、基於規則的方法 優點: 比較準確 不需要訓練數據 缺點: low recall rate,(覆蓋問題),覆蓋範圍小,很多規則

原创 03.循環鏈表(四)

將單鏈表中終端結點的指針端由空指針改爲指向頭結點,就使整個單鏈表形成一個環,稱爲循環鏈表。 循環鏈表解決了一個很麻煩的問題:如何從當中一個結點出發,訪問到鏈表的全部結點。 爲了使空鏈表與非空鏈表處理一致,通常設一個頭

原创 對Visualizing and Understanding Convolutional Networks的一些理解

本文通過引入CNN網絡的可視化技術分析AlexNet網絡結構,主要告訴我們CNN的每一層到底學習到了什麼特徵,讓我們在調參、改進網絡結構的時候提供一定的參考。 CNN網絡性能的顯著提高,得益於三個因素:(1)大量的帶標註的訓練數據

原创 (六)RF、GBDT、XGBoost

文章目錄一、RF1.1 原理1.2 優缺點二、GBDT2.1 原理2.2 優缺點三、XGBoost3.1 原理四、GBDT和XGBoost區別 RF、GBDT和XGBoost都屬於集成學習,集成學習的目的是通過結合多個基學習器的預