原创 Python之繪製個人足跡地圖

  前兩年,足跡地圖小程序風靡朋友圈,一時間大家都流行曬自己的旅行地圖。但是,筆者最近體驗了好幾款足跡地圖的小程序,發現這些小程序雖然號稱是足跡地圖,但最多隻是展示到省級別,無法精確到市級別,因此,筆者週末花了點時間,用Python來繪製自

原创 目標檢測初體驗(三)破解滑動驗證碼

  在我們日常登錄或註冊某個網站的時候,經常會出現滑動驗證碼,如下圖:   本文將會講述如何利用darknet來破解滑動驗證碼,我們只要找到圖片中的缺口就可以了。 數據的採集和標註   筆者利用爬蟲在某網站爬取了約300張帶缺口的滑動驗證

原创 NLP(三十一)短語的語序問題

  所謂的短語的語序問題,即給定一個打亂順序的短語,我們要按照語義信息將其重新組合,新的語序通順的短語。   舉個簡單例子,比如我們在識別驗證碼中的文字的時候,識別出來的文字分別爲“哲”,“思”,“學”,“想”,那麼重合調整語序後形成的短語

原创 NLP(三十)利用ALBERT和機器學習來做文本分類

  本文的靈感來自於A Visual Guide to Using BERT for the First Time,其作者爲Jay Alammar,訪問網址爲:http://jalammar.github.io/a-visual-guide

原创 目標檢測初體驗(二)自制人臉檢測功能

  之前筆者在學習OpenCV的時候,曾經接觸過人臉檢測,那時候我們只需要一個函數就能輕鬆實現人臉檢測。關於如何在OpenCV中實現人臉檢測功能,可以參考文章:OpenCV神技——人臉檢測,貓臉檢測 。那時候的感覺是,CV是如此的神奇,而人

原创 NLP(二十九)一步一步,理解Self-Attention

  本文大部分內容翻譯自Illustrated Self-Attention, Step-by-step guide to self-attention with illustrations and code,僅用於學習,如有翻譯不當之處,

原创 Python爬蟲之記錄一次下載驗證碼的嘗試

  好久沒有寫過爬蟲的文章了,今天在嘗試着做驗證碼相關的研究時,遇到了驗證碼的收集問題。   一般,驗證碼的加載都有着比較複雜的算法和加密在裏邊,但是筆者今天碰到的驗證碼卻比較幸運,有跡可循。在此,給出本爬蟲的相關記錄。   注意,文章和代

原创 Python之學會測試,讓開發更加高效(一)

  前幾天,聽了公司某位大佬關於編程心得的體會,其中講到了“測試驅動開發”,感覺自己的測試技能薄弱,因此,寫下這篇文章,希望對測試能有個入門。這段時間,筆者也體會到了測試的價值,一句話,學會測試,能夠讓你的開發更加高效。   本文將介紹以下

原创 NLP(二十八)多標籤文本分類

  本文將會講述如何實現多標籤文本分類。 什麼是多標籤分類?   在分類問題中,我們已經接觸過二分類和多分類問題了。所謂二(多)分類問題,指的是y值一共有兩(多)個類別,每個樣本的y值只能屬於其中的一個類別。對於多標籤問題而言,每個樣本的y

原创 Python之利用Whoosh搭建輕量級搜索

  本文將簡單介紹Python中的一個輕量級搜索工具Whoosh,並給出相應的使用示例代碼。 Whoosh簡介   Whoosh由Matt Chaput創建,它一開始是一個爲Houdini 3D動畫軟件包的在線文檔提供簡單、快速的搜索服務工

原创 NLP(十八)利用ALBERT提升模型預測速度的一次嘗試

前沿   在文章NLP(十七)利用tensorflow-serving部署kashgari模型中,筆者介紹瞭如何利用tensorflow-serving部署來部署深度模型模型,在那篇文章中,筆者利用kashgari模塊實現了經典的BERT+

原创 NLP(十七)利用tensorflow-serving部署kashgari模型

  在文章NLP(十五)讓模型來告訴你文本中的時間中,我們已經學會了如何利用kashgari模塊來完成序列標註模型的訓練與預測,在本文中,我們將會了解如何tensorflow-serving來部署模型。  在kashgari的官方文檔中,已

原创 Python之配置文件處理

  在平時的工程中,我們在構建工程時,常常需要用到配置文件,用來配置項目的一些信息,比如數據庫,請求網址,文件夾,線程、進程數等信息,這樣就可以方便我們通過修改配置文件中的參數來很好地完成整個項目的功能修改或開發。配置文件一般區別於Pyth

原创 NLP(十五)讓模型來告訴你文本中的時間

背景介紹   在文章NLP入門(十一)從文本中提取時間 中,筆者演示瞭如何利用分詞、詞性標註的方法從文本中獲取時間。當時的想法比較簡單快捷,只是利用了詞性標註這個功能而已,因此,在某些地方,時間的識別效果並不太好。比如以下的兩個例子: 原文

原创 NLP(十六)輕鬆上手文本分類

背景介紹   文本分類是NLP中的常見的重要任務之一,它的主要功能就是將輸入的文本以及文本的類別訓練出一個模型,使之具有一定的泛化能力,能夠對新文本進行較好地預測。它的應用很廣泛,在很多領域發揮着重要作用,例如垃圾郵件過濾、輿情分析以及新聞