原创 Lucene的數字範圍搜索 (Numeric Range Query)原理

0. 全文索引的核心就是倒排索引.     1. 若數字不支持範圍查詢, 直接變成字符串查找即可     2. 如果要支持範圍查詢, 直接的字符串存儲支持麼?      目前lucene要求term按照字典序(lexic

原创 Solr --- 函數查詢(FunctionQuery)

作用 通過函數查詢讓我們可以利用 numeric域的值或者與域相關的的某個特定的值的函數,來對文檔進行評分。 如何使用     這裏主要有兩種方法可以使用函數查詢,這兩種方法都是通過solr http 接口的:     1、內嵌

原创 機器學習 -- 隨機森林

1 什麼是隨機森林?   作爲新興起的、高度靈活的一種機器學習算法,隨機森林(Random Forest,簡稱RF)擁有廣泛的應用前景,從市場營銷到醫療保健保險,既可以用來做市場營銷模擬的建模,統計客戶來源,保留和流失,也可用來預

原创 Linux --- 清理內存和Cache的方法

Linux下清理內存和Cache方法 /proc/sys/vm/drop_caches 頻繁的文件訪問會導致系統的Cache使用量大增 $ free -m total used free shared buffers cached

原创 推薦系統 --- 實時推薦系統

推薦系統介紹 自從1992年施樂的科學家爲了解決信息負載的問題,第一次提出協同過濾算法,個性化推薦已經經過了二十幾年的發展。1998年,林登和他的同事申請了“item-to-item”協同過濾技術的專利,經過多年的實踐,亞馬遜宣稱銷售的推

原创 推薦系統 --- 協同過濾算法

簡介 協同過濾,Collaborative Filtering,簡稱CF,廣泛應用於如今的推薦系統中。通過協同過濾算法,可以算出兩個相似度:user-user相似度矩陣; item-item相似度矩陣。 爲什麼叫做協同過濾?是

原创 maven介紹

轉載:http://aiape.iteye.com/blog/1455420 1.前言 Maven,發音是[`meivin],"專家"的意思。它是一個很好的項目管理工具,很早就進入了我的必備工具行列,但是這次爲了把pro

原创 字符串 --- KMP算法

字符串匹配 舉例來說,有一個字符串”BBC ABCDAB ABCDABCDABDE”,我想知道,裏面是否包含另一個字符串”ABCDABD”? KMP算法 注意:“*”號之間爲當前比較的字符。 1. 首先,字符串”BBC ABC

原创 Linux --- 原子操作

原子鎖是linux內核同步的一種機制,下面將其應用到線程同步中來。 #include <alsa/iatomic.h> #include <pthread.h> #include <stdio.h> // 定義一個原子變量 st

原创 Web緩存 --- Varnish方案

簡介 varnish是一款高性能的開源HTTP加速器。 Varnish代替Squid的理由有三點:   1、Varnish採用了“Visual Page Cache”技術,在內存的利用上,Varnish比Squid具有優勢,它

原创 linux下去掉文件中^M的方法

在windows下編輯文件,然後放到linux環境。在windows環境下,換行是表示爲\r\n(0x0d0x0a),而在linux下,換行爲\n; 在sh腳本對這類文件進行處理時,很容易出現意想不到的情況,比如字符串的比較。

原创 Spark --- 啓動、運行、關閉過程

計算PI值 // scalastyle:off println package org.apache.spark.examples import scala.math.random import org.apache.spar

原创 Linux --- 計算程序執行時間

Linux下計算程序執行時間 #include <ctime> clock_t begin , end; begin = clock(); //這裏是要統計時間的代碼 end = clock(); unsigned uRunT

原创 Solr --- Group查詢

簡介 Group查詢將包含相同字段的文檔進行分組,每組返回得分較高的文檔。 例如:在一個電子零售網站搜索”DVD”,可能會返回三個類目”TV and Video”、”Movies”、”Computers”,並且每個類目包含三個文

原创 Solr -- query和filter query

Solr中的fq參數和q參數的執行順序: 1. fq首選會在FilterCache中查找,如果命中,則返回FilterCache中的DocSet; 如果沒有命中,則會在索引查找,返回DocSet並將其加入到FilterCache