原创 [Linux安全 --- 1] Web安全相關網站

一、建站(適用於零基礎小白,可就業於網頁設計、網頁編程): 1.初步學習Html5 HTML初步瞭解、HTML規範、HTML結構、font_body標籤、文本修飾、editplus設置、排版標記、符號和編號、 bgsound、HTML顏色

原创 [NLP --- 25] Jieba 分詞及關鍵詞提取

一. 分詞 1. 全模式 import jieba seg_list = jieba.cut("我來到北京清華大學", cut_all=True) print("Full Mode: " + "/ ".join(seg_list))

原创 [NLP --- 25] 文本相似度計算方法

一. 基於詞本身的相似度計算 1. TF-IDF Similarity 基於TF-IDF的相似度計算 2. edit distance 基於編輯距離的相似度計算 3. LDA Similarity 基於LDA主題模型的相似度計算 4. L

原创 [Python --- 7] 格式化輸出浮點數,保留2位小數

1. 使用format函數 num = 123.456 print("num: {:.2f}".format(num))  

原创 [NLP --- 14] 句子相似度計算

一. 字符層面的相似度 1.共現詞統計  

原创 [NLP --- 21] 自然語言生成中的Encoder-Decoder模型

一. 背景       在機器翻譯任務中,常常需要利用編碼器將源句子編碼爲固定長短的向量,並利用解碼器逐個時間步生成另一種語言的句子對應的向量。這種模型即可定義爲一個Encoder-Decoder模型。 二. Seq2seq模型    

原创 [NLP --- 23] 自然語言基礎模型 --- 卷積神經網絡

一. 簡介         卷積神經網絡 二. 反向傳播  

原创 [NLP --- 19] 預訓練模型中的自迴歸方法和自編碼方法

自迴歸方法: 通常出現在基於RNN的語言模型中,如ELMO,這類語言模型希望通過句子的前一部分詞,預測最後一個或幾個詞。 自編碼方法: 通常出現在基於Transformer的語言模型中,如Bert,這類語言模型將句子中的某些詞MASK掉,

原创 [NLP --- 22] 自然語言基礎模型---循環神經網絡RNN

一. 簡介 1. 網絡結構         循環神經網絡可處理時序信息,其模型結構如下         循環神經網絡的每一個神經元包括三部分:輸入層,隱藏層,輸出層,隱藏層利用一個非線性激活函數。從上圖中可看出,循環神經網絡的當前時間步

原创 [NLP -- 17] 自然語言處理中的注意力機制

最初的注意力機制

原创 [Python --- 6] python中的 * 和 ** 的用法

一. 算數運算 * 代表乘法 ** 代表乘方 x = 2 y = x * x; # y: 4 z = x ** 2; # z: 4 二. 函數形參 *args 和 **kwargs都可以傳遞不定數量的參數。 python有以下四種參

原创 [Python --- 2] Python中的map函數

map用法 根據提供的函數對指定序列做映射。 def square(x): return x ** 2; input = [1,2,3,4,5] output = map(square, input) # output: [

原创 [NLP --- 18] 自然語言處理中的Normalization

Layer Normalization Batch Normalization

原创 [NLP --- 16] 自然語言處理中的位置編碼

一. 位置編碼   二. Transformer模型中的位置編碼         pos表示某個詞在句子序列中的實際位置,i 表示詞向量的第 i 個維度。 在Transformer模型中取值爲512。對於某個位置pos處的詞向量,向量的

原创 [NLP ---15] Transformer 模型詳解

一. 背景         剛入門NLP的第二個月,Bert橫空出世,在多個任務上打敗之前大量基於RNN的模型,尤其是在作者探索的QA領域,Bert更是首次在SQuAD1.1數據集上取得超過人類的結果。Bert之後,各種預訓練模型層出不窮