原创 鞏固機器學習的一些基礎東西 原

樸素貝葉斯: 幾個概率論的概念: 1. 聯合概率:P(AB)或P(A,B) 多個隨機變量滿足各自概率 2. 條件概率:P(A|B) 在B已經發生的基礎下A發生的概率 3. 貝葉斯公式:P(AB)=P(B)P(A|B) P(AB)=P

原创 搜索引擎的一個實驗 原

這次的詐屍包括:1.詞向量,2.文檔相似度,3.簡易關鍵詞檢索,4.極其簡易問答系統。本來基於一個搜索引擎課程的實驗報告,但總覺得一個報告寫不完,不刺激。整個實驗環境在python3.5下 1. 詞向量: 詞向量用來表示可以簡單點,一個詞可

原创 隱馬爾科夫和最大熵馬爾科夫 原

隱馬爾科夫實現: 前文鏈接:https://my.oschina.net/u/3268732/blog/1480198 如前文的說法,隱馬爾科夫相關的有兩個式子: 對兩個式子就可以建立矩陣A,矩陣B。矩陣A是S之間的轉換,爲NN,N爲標籤

原创 春招紀念 原

崗位應聘算法工程師,自然語言處理,實習。想着要讀研,開始還對春招無動於衷。後來想了下,畢竟基本1年nlp全程自學,還是想看看自己幾斤幾兩,如果能入職還能看看這羣工業界的大佬到底在幹啥,就選了幾個公司投,也沒有然後就阿里爸爸對我最好了,不僅沒

原创 opencv+python機讀卡識別整合版 原 薦

稍微整理了一下這個系列的一二三四章,可能看着更舒服吧……這個系列的解決方案不止一種,調參的方法也是各種各樣,反正能夠滿足需求就極好了 1.預處理 這次的機讀卡識別項目來源暑期培訓,主要包括內容一張手機拍攝的機讀卡位置定位,識別其中選擇題模塊

原创 NLP 中的基礎總結 原

1. 詞 中文中,常規的詞一般直接由分詞工具切割開,如工具包結巴分詞,組成短語,一些情況下也可以用單個字表示。英文中的詞比較常見的是單個詞,也有些情況會使用英文詞組 1.1 詞的預處理 一般情況下,對於英文文本,首先需要轉換時態,三單這種詞

原创 opencv+python機讀卡識別(一)預處理 原

第二部分圖像切割:https://my.oschina.net/u/3268732/blog/1236344 第三部分選擇題識別:https://my.oschina.net/u/3268732/blog/1237819 第四部分數字識別:

原创 opencv+python機讀卡識別(二)邊緣檢測及分割 原

第一部分預處理:https://my.oschina.net/u/3268732/blog/1236298 第三部分選擇題識別:https://my.oschina.net/u/3268732/blog/1237819 第四部分數字識別:h

原创 opencv+python機讀卡識別(四)百度API進行數字識別 原

第一部分預處理:https://my.oschina.net/u/3268732/blog/1236298 第二部分圖像切割:https://my.oschina.net/u/3268732/blog/1236344 第三部分選擇題識別:h

原创 opencv+python機讀卡識別(三)對選擇題識別 原

第一部分預處理:https://my.oschina.net/u/3268732/blog/1236298 第二部分圖像切割:https://my.oschina.net/u/3268732/blog/1236344 第四部分數字識別:ht

原创 自動作文評分 原

今年參加了好未來的冬令營自然語言組,開心死了,成績不錯,認識了一堆大佬,特別感謝隊友劉智強童鞋,好隊友真靠譜,還拿到好未來算法崗offer了,但是因爲一些原因去不了挺可惜的,非常非常遺憾。先更新一波第二週的,因爲馬上就要講了。。。第一週語句

原创 opencv+python機讀卡識別之試錯(二)嘗試自建opencv分類器 原

這裏是效果不好的系列,但可能還是有丁點啓示作用。效果好的系列:https://my.oschina.net/u/3268732/blog/1236298 opencv自建haartrain分類器,這是一個基於haar特徵的一個玩意兒,人臉識

原创 短文本相似度比較 原

emm。。。補上次第二週的坑,這是第一週的內容,第二週的鏈接:https://my.oschina.net/DDigimon/blog/1622301 本次GitHub地址:https://github.com/qiangzi11hao/S

原创 一個基於Keras深度學習實驗型情感分類的小玩意 原

這次是做了一個基於Keras的情感分類小程序。Emm……工程上儘量向GitHub上的大佬們看齊吧。因爲感覺以前最尷尬的是下了一份深度學習的代碼居然tm看不懂,懂模型,卻不懂工程。 這個情感分類問題針對對象爲短文本,極性爲3極——正向,中立,

原创 opencv+python 機讀卡識別之試錯(一)模板匹配的數字識別 原

這裏是效果不好的系列,但可能還是有丁點啓示作用。效果好的系列:https://my.oschina.net/u/3268732/blog/1236298 圖像來源於第四部分的數字,用任意截圖工具截取部分圖像當作模板,比如這樣: 將模板與圖