原创 Bert文本分類及服務部署實戰

谷歌發佈bert已經有一段時間了,但是僅在最近一個文本分類任務中實戰使用過,順便記錄下使用過程。記錄前先對bert的代碼做一個簡單的解讀 bert源碼 首先我們從官方bert倉庫clone一份源碼到本地,看下目錄結構: . ├── CONT

原创 pandas DataFrame索引行列的實現

這篇文章主要介紹了pandas DataFrame索引行列的實現,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨着小編來一起學習學習吧 python版本: 3.6

原创 中文停用詞

GitHub鏈接 中文停用詞表, 哈工大停用詞表, 百度停用詞表, 四川大學機器智能實驗室停用詞庫四份停用詞表進行了合併去重, 共計2312個 " # $ & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 :

原创 8種相似度度量方式的原理及實現

8種相似度度量方式的原理及實現 歐氏距離(Euclidean Distance) 歐氏距離(也稱歐幾里得度量)指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離) 計算公式 $$dist(A,B)=\sqrt{\s

原创 python小技巧

python小技巧 利用zip將兩個可迭代對象生成爲字典 keys = ["Bob", "Jack", "Tom", "Mary"] values = ["male", "male", "male", "female"] d = dict