原创 seq2seq 源碼分析(PyTorch版)

torch.__version__ 版本爲-1.1.0 1.首先引入包,定義 填充符 PAD_token、開始符 SOS_token 、結束符 EOS_token # 在開頭加上from __future__ import print

原创 《Attention is All You Need》論文理解Transformer

谷歌的Transformer模型最早是用於機器翻譯任務,當時達到了SOTA效果。 Attention is All You Need:https://arxiv.org/abs/1706.03762 Tensorflow:https://

原创 Encoder-Decoder架構與注意力機制

Encoder-Decoder架構模型,如下圖: Encoder會利用整個原始句子生成一個語義向量,Decoder再利用這個向量翻譯成其它語言的句子。這樣可以把握整個句子的意思、句法結構、性別信息等等。 Encoder對X 進行非線性變換

原创 模型融合:Stacking源碼解析

第一層: 訓練數據:通過5-fold切分數據集分別訓練和測試,將model1的預測值保存爲P1,作爲model2的訓練數據。 測試數據:通過每次訓練的model1預測所有的測試數據,然後取平均值得到T1。 如果第一層有三個模型,則得到預測

原创 python如何導入(import)不同文件夾的文件

導入同一級的文件 import file1 導入下級目錄的文件,需要在文件夾裏新建一個空白的__init__.py文件,然後導入 from dir2 import file2 導入上級目錄下的文件,需要使用sys.path impo

原创 作業幫筆試7.31

1.非遞歸中序遍歷 用棧的方式完成,由於後進先出的特性,不斷壓入根節點的所有左節點直到當前節點爲空,然後彈出節點,並且遍歷節點的右節點。如果有節點有左子樹,則繼續壓入。。 class Solution: def inorderT

原创 頭條一面二面(7.14):面試內容記錄

1. 部門:用戶中心 用戶關係判斷,社交網絡,惡意行爲,風險控制。   2. 自我介紹 技能:pytorch、tensorflow、python、C++、SQL 知識領域:機器學習、深度學習、NLP(文本生成、文本分類、對話理解) 個性:

原创 京東筆試題——消消樂問題

消消樂 # 1 a = [[3,1,2,1,1],[1,1,1,1,3],[1,1,1,1,1],[1,1,1,1,1],[3,1,2,2,2]] def candy(line): R, C = 5, 5 c

原创 源碼分析:《Topic-to-Essay Generation with Neural Networks》

1.閱讀配置參數的 Config.py 文件 完整代碼如下: #coding:utf-8 class Config(object): data_dir = 'Data/' vec_file = 'Data/vec.tx

原创 算法&數據結構(八):回溯法

回溯是一種通過窮舉所有可能情況來找到所有解的算法。如果一個候選解最後被發現並不是可行解,回溯算法會捨棄它,並在前面的一些步驟做出一些修改,並重新嘗試找到可行解。 leetcode:17. 電話號碼的字母組合 問題描述:給定一個僅包含數字 

原创 算法&數據結構(四):鏈表

劍指offer:從尾到頭打印鏈表 問題描述:輸入一個鏈表,按鏈表值從尾到頭的順序返回一個ArrayList。 解法:棧 a=[]   a.append()    a.pop()     a.pop(0) 時間複雜度:O(n) # cla

原创 算法&數據結構(六):二叉樹

leetcode:617. 合併二叉樹 問題描述:給定兩個二叉樹,合併爲一個新的二叉樹。合併的規則是如果兩個節點重疊,那麼將他們的值相加作爲節點合併後的新值,否則不爲 NULL 的節點將直接作爲新二叉樹的節點。 解法:指定其中一個樹,如果

原创 算法&數據結構(七):動態規劃

理解動態規劃: 將一個問題拆成幾個子問題,分別求解這些子問題,即可推斷出大問題的解。 求解時,需要設計狀態函數,轉移方程。   leetcode:300. 最長上升子序列 問題描述:給定一個無序的整數數組,找到其中最長上升子序列的長度 解

原创 算法&數據結構(五):棧與隊列

leetcode:347. Top K Frequent Elements 問題描述:給定一個非空數組,返回前K個出現頻率最高的元素。 解法:字典存放元素和頻率,創建優先隊列保存前K個(頻率,元素)自動最小堆排序。 # 排序算法 # 時

原创 python的數據預處理

# GB18030,全稱:國家標準GB18030 - 2005《信息技術中文編碼字符集》,是中華人民共和國現時最新的內碼字集, # 是GB18030 - 2000《信息技術信息交換用漢字編碼字符集基本集的擴充》的修訂版。GB18030與