原创 新詞挖掘

原创 query意圖識別

訓練數據的選擇是分類算法最重要的一步,一般對文本的分類預測,可以使用信息增益,卡方,互信息等來作爲訓練特徵。具體問題具體分析,例如使用loglinear算法進行預測,實驗證明信息增益來作爲特徵選擇會更加有效,另外也得分析應用的場景,根據需

原创 lucene系列-facet搜索

facet搜索,方面搜索,電商中使用的非常多.例如 統計field中值的分組分佈情況, 只是每個域值中的命中數量. facet搜索主要用於: 1.Facet Counting facet域值統計 2.Facet Assoc

原创 數據結構之圖-割點與橋

割點是無向圖中去掉後能把圖割開的點。dfs時用dfn(u)記錄u的訪問時間,用low(u)數組記錄u和u的子孫能追溯到的最早的節點(dfn值最小)。由於無向圖的dfs只有回邊和樹邊,且以第一次dfs時的方向作爲邊的方向,故有: low=

原创 Lucene系列-index彈性擴展

Lucene系列-index擴展 Shard與Replica Shard:index數據分片.當索引數據到達百億級別的,單份數據索引讀取和搜索都是非常耗時間的,即使在用earlytermination的情況下,latency也在

原创 算法之LCA和RMQ

最近公共祖先(Least Common Ancestors) 對於有根樹T的兩個結點u、v,最近公共祖先LCA(T,u,v)表示一個結點x,滿足x是u、v的祖先且x的深度儘可能大。另一種理解方式是把T理解爲一個無向無環圖,而LCA(T,

原创 協同過濾

準確率 召回率 覆蓋率 平均流行度 1.基於領域的算法 a.基於用戶的協同過濾算法 --- 計算複雜度比較高    步驟:1.找到和目標用戶興趣相似的用戶集合-----統計當前用戶中的物品類似的               2.找到這個集

原创 邏輯迴歸

二元邏輯迴歸(Logistic Regression, LR)模型 機率(odds: 對數形式: 基於LR的點擊率預測 Where, x代表一個(query, ad)對應的特徵向量, y 屬於{1,0}分別代表點擊和不點擊,p(y

原创 圖的相關概念

基本概念: 1.割點:若刪掉某點後,原連通圖分裂爲多個子圖,則稱該點爲割點。 2.割點集合:在一個無向連通圖中,如果有一個頂點集合,刪除這個頂點集合,以及這個集合中所有頂點相關聯的邊以後,原圖變成多個連通塊,就稱這個點集爲割點集合。

原创 數據結構之圖-最大團

問題描述:團就是最大完全子圖。 給定無向圖G=(V,E)。如果UV,且對任意u,vU 有(u,v)  E,則稱U 是G 的完全子圖。 G 的完全子圖U是G的團當且僅當U不包含在G 的更大的完全子圖中,即U就是最大完全子圖。 G

原创 Lucene系列-DocValues

DocValues簡介 Lucene索引的存儲一般都是以倒排拉鍊的方式(term-doc), 但是在搜索相關功能處理的時候,如排序,高亮,摘要信息的獲取,需要通過文檔docid找到相應的正排信息,在Lucene4.0中,引入了一個

原创 GBDT(MART) 迭代決策樹入門教程

在網上看到一篇對從代碼層面理解gbdt比較好的文章,轉載記錄一下:        GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression

原创 相關性

主要維度 •     文本相關性 文本角度的相關度匹配 •     權威性 相關前提下選出更優質/權威的結果 •     需求滿足 同樣的關鍵詞有不同的含義,分析用戶需求並給出適合的結果 特徵提取層 1.     頁面級別特徵     a

原创 數據結構之並查集

  並查集的精髓(即它的三種操作,結合實現代碼模板進行理解): 1、Make_Set(x) 把每一個元素初始化爲一個集合 初始化後每一個元素的父親節點是它本身,每一個元素的祖先節點也是它本身(也可以根據情況而變)。 2、Find

原创 隨機數發生器

有一個隨機數發生器f(),能以概率p生成0,以概率1-p生成1,嘗試做一個隨機數發生器g(),以均勻的概率生成0和1。如果的你的方案無法做到精確的均勻,那麼請給給出誤差 int g() {               inta=f()