原创 TensorFlow-Serving的使用實戰案例筆記(tf=1.4)

最近在測試一些通用模型+項目,包括:CLUE(tf+pytorch),bert4keras(keras), Kashgari(keras+tf)等。其中如果要部署的話,就有tensorflow-serving和flask的選擇了。

原创 python | 高效統計語言模型kenlm:新詞發現、分詞、智能糾錯

之前看到蘇神【重新寫了之前的新詞發現算法:更快更好的新詞發現】中提到了kenlm,之前也自己玩過,沒在意,現在遇到一些大規模的文本問題,模塊確實好用,前幾天還遇到幾個差點“棄療”的坑,解決了之後,就想,不把kenlm搞明白,對不起

原创 python | 關鍵詞快速匹配檢索小工具 pyahocorasick / ahocorapy

AC自動機是多模式匹配的一個經典數據結構,原理是和KMP一樣的構造fail指針,不過AC自動機是在Trie樹上構造的,但原理是一樣的。官方github: https://github.com/WojciechMula/pyahoc

原创 網絡表情NLP(一)︱顏文字表情實體識別、屬性檢測、新顏發現

這是一篇一本正經無聊的小研究項目。。 互聯網現在面臨很多新網絡文體,比如彈幕文體、小紅書的種草文體、網名等,這些超短文本中本身字符特徵就比較少,但是表情包占比卻很多,這是重要信息呀。 之前參加比賽,一般都是當作停用詞直接刪掉,在這

原创 練習題︱ python 協同過濾ALS模型實現:商品推薦 + 用戶人羣放大

之前的一個練習題:練習題︱豆瓣圖書的推薦與搜索、簡易版知識引擎構建(neo4j)提及了幾種簡單的推薦方式。 但是在超大規模稀疏數據上,一般會採用一些規模化的模型,譬如spark-ALS就是其中一款。 這邊,筆者也是想調研一下這個模

原创 網絡表情NLP(二)︱特殊表情包+emoji識別

這是一篇一本正經無聊的小研究項目。。 互聯網現在面臨很多新網絡文體,比如彈幕文體、小紅書的種草文體、網名等,這些超短文本中本身字符特徵就比較少,但是表情包占比卻很多,這是重要信息呀。 之前參加比賽,一般都是當作停用詞直接刪掉,在這

原创 極簡使用︱Glove-python詞向量訓練與使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式,其中word2vec來看,在gensim已經可以極快使用(可見:python︱gensim訓練word2vec及相關函數與功能理解) 官方glove教程比

原创 中文文本糾錯算法走到多遠了?

糾錯是從互聯網起始時就在一直解決的問題,但是一直作爲一些重要技術的輔助、附屬功能而默默無聞,譬如搜索引擎、譬如火熱的智能寫作等。 素質整理! 中文文本糾錯任務,常見錯誤類型包括: 諧音字詞,如 配副眼睛-配副眼鏡 混淆音字詞

原创 極簡使用︱Gensim-FastText 詞向量訓練以及OOV(out-of-word)問題有效解決

glove/word2vec/fasttext目前詞向量比較通用的三種方式,之前三款詞向量的原始訓練過程還是挺繁瑣的,這邊筆者列舉一下再自己使用過程中快速訓練的方式。 其中,word2vec可見:python︱gensim訓練wo

原创 docker︱docker run的解讀與一鍵部署

這是之前的文章: docker︱在nvidia-docker中使用tensorflow-gpu/jupyter 文章目錄1 docker run的解讀1.1 docker run1.2 幾種進入容器的方式2 docker .sh

原创 NVIDIA的python-GPU算法生態 ︱ RAPIDS 0.10

隨着新版本的推出,RAPIDS 迎來了其推出一週年紀念日。回顧所經歷的一年,RAPIDS團隊就社區對該項目的關心和支持表示衷心的感謝。此前,RAPIDS獲得了其首個BOSSIE獎。非常感謝各位的支持!RAPIDS團隊將繼續推動端對

原创 nvidia-rapids︱cuGraph(NetworkX-like)關係圖模型

RAPIDS cuGraph庫是一組圖形分析,用於處理GPU數據幀中的數據 - 請參閱cuDF。 cuGraph旨在提供類似NetworkX的API,這對數據科學家來說很熟悉,因此他們現在可以更輕鬆地構建GPU加速的工作流程 官方

原创 nvidia-rapids︱cuML機器學習加速庫

cuML是一套用於實現與其他RAPIDS項目共享兼容API的機器學習算法和數學原語函數。 cuML使數據科學家、研究人員和軟件工程師能夠在GPU上運行傳統的表格ML任務,而無需深入瞭解CUDA編程的細節。 在大多數情況下,cuML

原创 nvidia-rapids︱cuDF與pandas一樣的DataFrame庫

cuDF(https://github.com/rapidsai/cudf)是一個基於Python的GPU DataFrame庫,用於處理數據,包括加載、連接、聚合和過濾數據。向GPU的轉移允許大規模的加速,因爲GPU比CPU擁有

原创 AI智能內容創作的幾個方面

昨天剛好看到CSDN有要開通付費專欄(定價有點不合理啊),我就在想有啥好寫。。 剛好最近的研究方向就是KG + 智能寫作 ,而且大大小小的智能內容創作產品、技術也一直在關注,於是就想做個小小搬運匠,看看能不能把相關的內容整理、搬運一下。