原创 hanlp

maven方式 https://www.cnblogs.com/shaosks/p/8317611.html   https://github.com/hankcs/HanLP   hanlp https://gitee.com/micd

原创 XGB for Rank

常規參數   XGBoost全名叫(eXtreme Gradient Boosting)極端梯度提升,經常被用在一些比賽中,其效果顯著。它是大規模並行boosted tree的工具,它是目前最快最好的開源boosted tree工具包。X

原创 LR 和 SVM 的區別與聯繫

LR 和 SVM 的區別與聯繫 LR 和 SVM 的區別與聯繫 聯繫 不同點 LR 和 SVM 的選擇 SVM 的 kernel 一般怎麼選擇? 聯繫 都是分類算法 在很大一部分人眼裏,LR是迴歸算法。我是非常不贊同這一點的,因爲我認

原创 安裝pip最新版 20.1

You are using pip version 19.3.1; however, version 20.1 is available. 看了很多帖子各種試水不成功,多方嘗試終於成功 官網下載了一份whl文件(官網地址:https://

原创 Pool實現多進程並行

Pool 模塊來自於 multiprocessing 模塊。 multiprocessing 模塊是跨平臺版本的多進程模塊,像線程一樣管理進程,與 threading 很相似,對多核CPU的利用率會比 threading 好的多。Po

原创 Elasticsearch——概念

集羣(cluster)         一個集羣就是由一個或多個節點組織在一起,它們共同持有你整個的數據,並一起提供索引和搜索功能。一個集羣由一個唯一的名字標識,這個名字默認就是“elasticsearch”。這個名字是重要的,因爲一個節

原创 lucene與ElasticSearch

目錄 Lucene ElasticSearch Lucene   vs   Elasticsearch Lucene Lucene 是一個基於 Java 的全文信息檢索工具包,它不是一個完整的搜索應用程序,而是爲你的應用程序提供索引和搜索

原创 SVM

1、what SVM是一種二類分類模型,其基本模型定義爲特徵空間上的間隔最大的線性分類器,即支持向量機的學習策略便是間隔最大化。或者簡單的可以理解爲就是在高維空間中尋找一個合理的超平面將數據點分隔開來,其中涉及到非線性數據到高維的映射以達

原创 LR和SVM

SVM 基本概念 將實例的特徵向量(以二維爲例)映射爲空間中的一些點,就是如下圖的實心點和空心點,它們屬於不同的兩類。 那麼 SVM 的目的就是想要畫出一條線,以“最好地”區分這兩類點,以至如果以後有了新的點,這條線也能做出很好的分類。

原创 邏輯迴歸(LR)*

1. LR的直觀表述 1.1 直觀表述   今天我們來深入瞭解一個工業界應用最多,雖然思想簡單但也遮擋不住它NB光芒的綻放的一個分類預測模型,它就是LR模型。LR模型可以被認爲就是一個被Sigmoid函數(logistic方程)所歸一化後

原创 馬氏距離

1馬氏距離 馬氏距離是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,是歐氏距離的一種推廣。它通過協方差來計算兩點之間距離,是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的相

原创 基於深度學習的行人重識別研究綜述 羅浩.ZJU

基於深度學習的行人重識別研究綜述 羅浩.ZJU 1 個月前 原文:獨家 | 基於深度學習的行人重識別研究綜述 作者:羅浩 備註:爲雷鋒網/AI 科技評論寫的一篇文章,原文沒有公式編輯器,所以在知乎上發佈一版 前言:行人重

原创 馬氏距離 vs 歐氏距離

歐氏距離定義: 歐氏距離( Euclidean distance)是一個通常採用的距離定義,它是在m維空間中兩個點之間的真實距離。 在二維和三維空間中的歐式距離的就是兩點之間的距離,二維的公式是  d = sqrt((x1-x2)^+

原创 nlp總體框架

https://blog.csdn.net/valada/article/details/80892583 獲取語料 語料,即語言材料。語料是語言學研究的內容。語料是構成語料庫的基本單元。所以,人們簡單地用文本作爲替代,並把文本中的上下文

原创 nlp資料總結

學習路線     https://blog.csdn.net/asialee_bird/article/details/85702874 學習資源     https://blog.csdn.net/weixin_44356285