原创 基於中文哪吒的FLAT的命名實體識別實現與探討

哪吒bert的基本理解 哪吒是華爲公司針對中文的bert預訓練模型,首選感謝華爲公司提供了這麼好的開源項目,通過對哪吒論文的閱讀與理解哪吒的重點主要放在三處改進之處,但是憑自己說這三點都是現成的: 1、Functional Rel

原创 pycharm鏈接帶cuda的docker,出現在pycharm訓練時不加載cuda問題,出現

 Could not load dynamic library 'libcudart.so.10.0'; dlerror: libcudart.so.10.0: cannot open shared object file: No suc

原创 Al-bert利用自己訓練數據集預訓練以及測試LCQMC語義相似度測試(二)

`Al-bert利用自己訓練數據集預訓練以及測試LCQMC語義相似度測試## 標題(二) 上一張講解了怎麼構造預訓練的數據,這一章講解訓練過程,一起探討與bert的區別 1.2 run_pretraining.py 的講解

原创 常規筆記

1.1 查看電腦cpu信息       (1)利用命令cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c        (2)利用top命令,然後再按1就可以在上面看到信息; 1.2

原创 ubuntu apt-get update 出現 0% [Working] 停止更新狀態

Get:40 http://mirrors.aliyun.com/ubuntu bionic-backports/main Sources [2569 B] Get:41 http://mirrors.aliyun.com/ubuntu

原创 CTCconnectionist temporal classfication: labelling unsegmented sequence data with recurrent(一)

CTC 是對於未分割的時序進行分類的一種經典,並且非常有效的算法,目前針對語音識別,orc都是不可或缺的技術,雖然有很多人解釋了ctc,但仍然不懂,經過長時間論文以及閱讀大牛們的解釋,算是有所收穫,藉此對論文重新解釋,加深印象。     

原创 哪吒bert論文的講解以及命名實體識別代碼NEZHA:NEURAL CONTEXTUALLZED REPRESENTATION FOR CHINESE LANGUAGE UNDERSTANDING

  摘要:   語訓練模型由於能夠獲取深度上下文信息在多個自然語言理解獲得巨大成功,這種模型通過預訓練大量無標籤語料得到。當前版本的NEZHA是基於BERT模型經過一系列改進驗證得到的模型,其中改進的包括函數式位置編碼Functional

原创 實體識別類別標註

當我們要對字符串中的實體進行標註時,需要尋找到實體在字符串的開始位置代碼如下: def _index_q_list_in_k_list(q_list, k_list): """Known q_list in k_list, fi

原创 python 子字符串在字符串中所有的位置代碼

import re entity_startindex = [i.start() for i in re.finditer(temp_label[0], sentecen)] 其中temp_label[0]是子字

原创 基於kbqa 的復旦大學論文解釋 learning question answering over QA corpora and knowledge bases(一)

        由於我利用了大牛的論文復現了代碼,但是很多同學都不太懂,由於本人代碼規範不是太好,並且最近太忙所以一直沒有整理這方面的,所以抽出時間,準備再重新過一遍,然後看是否能夠基於本篇論文做更多的貢獻,然後把代碼從頭梳理一遍。   

原创 kbqa基於復旦大學的實現代碼解析完成步驟 (一)

應大部分初學者的要求,本文主要針對實現的代碼以及數據進行介紹; 整理後的代碼放在https://github.com/chenmingwei00/upload_KBQA.git 訓練好的數據參數在鏈接:https://pan.baidu.

原创 Al-bert利用自己訓練數據集預訓練以及測試LCQMC語義相似度測試(一)

`Al-bert利用自己訓練數據集預訓練以及測試LCQMC語義相似度測試## 標題(一) 數據預處理解析 本次主要是針對al-bert與訓練過程進行解析,希望對大家有所幫助,預訓練過程主要分1、數據構造過程;2、與訓練過程;首先簡

原创 Albert 論文相關筆記

albert 的主要改進點在於兩點: 1、因式分解詞彙embedding參數(當然和數學裏邊的因式分解不一樣),這裏採用了矩陣映射的方法,把大的詞彙矩陣分解成兩個小矩陣,把hidden_size與embedding_size進行分

原创 pdf如何安裝最新版本的poppler?

https://www.helplib.com/ubuntu/article_167696     回答 1: 我發現我必須在自己的系統中編譯最新版本的 Poppler插件,並編譯( 經過大量測試之後)的最新版本,然後編譯它的最新版本。

原创 針對tensorflow 出現nan的問題解決,transformer訓練出現nan的問題總結

先說明一下我運用的是韓國大佬https://github.com/Kyubyong/transformer.git的代碼,來做了一個閒聊的問答模   情況說明:           由於在之前一直在用tensortflow-gpu ,在之