原创 BERT的源碼介紹

BERT源碼解析學習鏈接 tf.data API使用方法 Dataset API入門教程 tf.contrib.data.parallel_interleave Pipeline技術的優點 tf.gfile學習 tf.data.Datas

原创 unzip命令大全學習

學習鏈接 解壓強制覆蓋 解壓不覆蓋

原创 BERT的應用

tf.train.Example的用法 tf.train.Example主要是生成二進制文件 TFRecord + Dataset BERT使用上面的方法對訓練數據和測試數據生成二進制文件並進行讀取 tf.estimator.Estim

原创 自然語言處理中語料處理小竅門

自然語義處理造文本分類語料的小技巧 1.根據句式造模板生成語料。 2.裏面的詞語可以根據詞向量計算的相似詞進行替換生成新的語料。 3.可以通過語料先訓練一個模型,然後再跑新的數據,然後對新的數據進行審覈,進行標記。 4.新加一個類別的時候

原创 GPU使用

登錄有GPU的機器。 然後使用docker進入安裝了cuda的環境。 查看gpu使用狀況 查詢命令介紹 啓動代碼中選擇gpu進行運算 import os os.environ['CUDA_VISIBLE_DEVICES'] = '1'

原创 tensorflow中的InvalidArgumentError (see above for traceback): indices[1] = 10 is not in [0, 10)

InvalidArgumentError (see above for traceback): indices[1] = 10 is not in [0, 10) lookup的時候出現10的index,但是embedding中沒有10對

原创 開源多輪對話系統

1.百度UNIT 2.訊飛AIUI 3.網易飛魚

原创 gan理論學習

理論學習鏈接 gan的原理詳解 gan是讓生成模型儘可能生成最近似的圖像,讓判別模型對生成圖片和原始圖片的判別準確率比較高,所以損失函數定義爲      

原创 docker啓動錯誤

service endpoint with name xxx already exists. 解決辦法

原创 hive分區表插入和查詢

hive分區表插入報錯 In Hive the partitioning "columns" are managed as metadata >> they are not included in the data files, ins

原创 transformer xl的學習

原始論文翻譯 圖形化理解學習鏈接 transformer xl 主要解決transformer句子長度必須固定,如果長度超過定義的最大長度就會捨棄後面的詞語。 這樣就把一個句子分成兩段文本,不利於長文本的計算。 transformer x

原创 python的print與sys.stdout

學習鏈接

原创 hive if null補0

hive沒有ifnull函數,不過可以使用if(col is not null, col, default_value)來實現ifnull的功能,如果col不爲null,返回col的值,否則返回default_value

原创 position embedding學習

深入分析學習 transformer中在進行attention的時候,位置進行變化但是attention的結果一樣,在attention之後進行全連接的時候雖然知道詞之間的位置,但是attention的結果沒有位置信息這個時候進行全連接也

原创 ESIM模型學習

學習鏈接 tensorflow版代碼