原创 BERT進行文本分類和文本匹配的不同

def convert_single_example(ex_index, example, label_list, max_seq_length, tokenizer): """

原创 有詞典領域的實體識別(實體消歧)和實體鏈接方法

學習鏈接 比賽第一名開源 作者使用BERT+CRF和BERT+ENE兩種方法進行融合來進行實體識別 BERT+ENE可以根據詞典進行歧義判斷(轉化成二分類標籤而不是序列標註標籤進行處理)來解決CRF出現識別缺少一個字的情況,充分利用詞典的

原创 pytorch模型訓練步驟

        講解代碼textcnn模型 1.加載conf文件 x = import_module('models.' + model_name) config = x.Config(dataset, embedding) 2

原创 torchtext不支持對數據進行拆分

train_path = '../data/match_data/train.csv' test_path = '../data/match_data/dev.csv' all_train_data = pd.read_csv(trai

原创 使用對抗訓練提高textcnn的文本分類準確率

實驗算法pytorch裏面的textcnn算法 對抗學習代碼博客 Fast Gradient Method(FGM) 對輸入的embedding進行對抗擾動 說明對embedding進行擾動 pytorch算法中的embedding表示

原创 roberta跟bert的對比

roberta到底改進了什麼? 三個訓練改進: 去掉下一句預測(NSP)任務 動態掩碼。BERT 依賴隨機掩碼和預測 token。原版的 BERT 實現在數據預處理期間執行一次掩碼,得到一個靜態掩碼。 而 RoBERTa 使用了動態掩碼:

原创 torch中三維四維矩陣運算,以及多維softmax運算

三維矩陣*三維矩陣 import torch tensors = torch.tensor([[[1,2],[1,2],[1,2]],[[1,2],[1,2],[1,2]],[[1,2],[1,2],[1,2]]]) print(t

原创 torch實現ESIM算法

ESIM的模型代碼見: # -*- coding: utf-8 -*- # @Time : 2020/2/25 11:19 # @Author : liusen from torch import nn import torch imp

原创 機器學習和深度學習基礎的一些思考

1.元組和鏈表有什麼區別 2.GBDT講一下(GBDT的迴歸和分類) 3.講一下決策樹的分叉的方法 4.講一下RNN和LSTM的區別 5.講一下transformer和lstm的區別 6.java中hashmap如果有hash衝突怎麼辦?

原创 英文音標學習

字母有兩個發音 1.名稱音  字母在單詞表中的發音 2.讀音 字母的單詞中的發音 5個元音字母,21個輔音字母 20個元音音標,28個輔音音標 20個元音音標裏面有7個短元音5個長元音8個雙元音 28個輔音音標裏面有10個清輔音,10個濁

原创 dropout的實現方法

dropout詳解 dropout的實現方法 算法實現概述: 1、其實Dropout很容易實現,源碼只需要幾句話就可以搞定了,讓某個神經元以概率p,停止工作,其實就是讓它的激活值以概率p變爲0。比如我們某一層網絡神經元的個數爲1000個,

原创 torchtext進行文本預處理

torchtext文本預處理學習鏈接

原创 torch實現one-hot對label進行處理

學習鏈接 torch和tf進行對比 可以看出torch方法沒有tf封裝的那麼好

原创 torch使用lstm進行文本分類

文本分類學習鏈接

原创 貪心學院從BERT到XLNET

張俊林的詳細解釋 在b站看貪心學院最後一節課從BERT到XLNET的分享 上面PPT可以看到 1.XLNET是Autoregressive模型而BERT是Auto-encoding模型,兩種模型的對比解釋見https://blog.cs