ElasticSearch--相關度背後的理論

原創

2020-02-24 04:19

TF/IDF

詞頻（TF）

其實就是一個詞在一篇文章中出現的頻率在開平方，頻率越高，說明這個詞在這篇文章中的權重越高

IDF

idf(word) = 1+log(numDocs/(docFreq +1))
numdocs是所有文檔的數量，docFreq 是包含有word的文檔的數量。可以看出當docFreq越大，則IDF越小，例如像the這樣的詞，幾乎每篇文章裏都有，所以這樣的詞權重就很低

Field-length norm

可以想象，如果文檔的長度越小，那麼某個詞在這個文檔中的權重就越高。Field-length norm
的計算方法
norm(d) = 1/sqrt(numTerms)
在全文索引中Filed-length norm是很重要的，而其他類型的檢索可能不需要field-length norm。對於每個string field norms大約消耗一個字節的存儲容量，所以當我們不需要全文索引，僅僅是查找關鍵詞的時候，不要norms功能可以節省不少的存儲空間。

將上述參數合起來

上述的三個因素—詞頻（TF），逆向文件頻率（IDF）和filed-length norm，實在在索引時間計算和保存的。這些被用來計算一個單詞在某個特定文檔中的權重。

向量空間模型

當然我們在索引文件的時候並不是單單用一個單詞，當我們用多個詞來搜索某個文件的時候怎麼辦呢？
這時候我使用向量空間模型。一個向量中的每一個數字是一個單詞在這個文檔中的權重（用TF/IDF計算的）。
首先先計算查詢字符串的對於每個詞的權重向量，然後再計算文檔的向量。然後再用餘弦定理計算兩個文檔向量的距離d，d越接近於1說明訪問字符串和這個文檔的相關度越高。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

無需重新學習，使用 Kibana 查詢/可視化 SLS 數據

作者：荊磊場景現在通過 SLS 的 ES 兼容能力，可以很方便地實現用 Kibana 來查詢和可視化 SLS 的數據。對於從 ES 遷移到 SLS 的用戶可以繼續保留原來的 Kibana 使用習慣。下面來演示如何通過 Kibana 來訪

2024-04-28 21:12:20

日誌架構演進：從集中式到分佈式的Kubernetes日誌策略

當我們沒有使用雲原生方案部署應用時採用的日誌方案往往是 ELK 技術棧。這套技術方案比較成熟，穩定性也很高，所以幾乎成爲了當時的標配。可是隨着我們使用 kubernetes 步入雲原生的時代後， kubernetes 把以往的操作系統

2024-04-23 11:47:10

架構設計｜基於 raft-listener 實現實時同步的主備集羣

背景以及需求線上業務對數據庫可用性可靠性要求較高，要求需要有雙 AZ 的主備容災機制。主備集羣要求數據和 schema 信息實時同步，數據同步平均時延要求在 1s 之內，p99 要求在 2s 之內。主備集羣數據要求一致要求能夠在主

2024-04-18 01:07:18

更優性能與性價比，從自建 ELK 遷移到 SLS 開始

作者：荊磊背景 ELK (Elasticsearch、Logstash、Kibana) 是當下開源領域主流的日誌解決方案，在可觀測場景下有比較廣泛的應用。隨着數字化進程加速，機器數據日誌增加，自建 ELK 在面臨大規模數據、查詢性能等方

2024-04-15 21:12:22

美團外賣基於GPU的向量檢索系統實踐

到家搜索業務具有數據量大、過濾比高等特點，爲了在保證高召回率的同時進一步提高檢索性能，美團到家搜索技術團隊與基礎研發機器學習平臺團隊基於GPU實現了支持向量+標量混合檢索的通用檢索系統，召回率與檢索性能均有較大提升。本文將介紹我們在GPU

2024-04-12 21:15:18

高維解碼｜Redis 收緊許可證！開源軟件公司如何在雲時代生存？

最近，Redis 從開放源代碼的 BSD 許可證過渡到了更加限制性的 Server Side Public License (SSPLv1)。一石激起千層浪，Redis 的這一舉動，不僅分化了前 Redis 維護者，也再次引發業界對於“開

2024-04-08 21:20:20

甲方安全建設之日誌採集實操乾貨

前言沒有永遠的安全，如何在被攻擊的情況下，快速響應和快速溯源分析攻擊動作是個重要的話題。想要分析攻擊者做了什麼、怎麼攻擊進來的、還攻擊了誰，那麼日誌是必不可少的一項，因此我們需要儘可能採集多的日誌來進行分析攻擊者的動作，甚至在攻擊者剛落

2024-04-07 22:46:03

elasticsearch 監控查看活躍的search

GET _nodes/stats indexing 顯示已經索引了多少文檔。這個值是一個累加計數器。在文檔被刪除的時候，數值不會下降。還要注意的是，在發生內部索引操作的時候，這個值也會增加，比如說文檔更新。還列出了索引操作耗費

2024-04-07 13:07:02

阿里雲PAI大模型RAG對話系統最佳實踐

去年4月至9月，阿里雲人工智能平臺 PAI 團隊與大數據基礎工程技術團隊合作，構建了基於知識庫檢索增強的大模型答疑對話機器人，並在阿里雲官方答疑鏈路、研發小蜜、釘釘大數據技術服務助手等多個線上場景上線，顯著提升答疑效率。相關文檔：【萬字長文

2024-03-15 00:43:34

KubeSphere 社區雙週報｜2024.02.29-03.14

KubeSphere 社區雙週報主要整理展示新增的貢獻者名單和證書、新增的講師證書以及兩週內提交過 commit 的貢獻者，並對近期重要的 PR 進行解析，同時還包含了線上/線下活動和佈道推廣等一系列社區動態。本次雙週報涵蓋時間爲：202

2024-03-14 23:29:59

日誌服務 SLS 深度解析：擁抱雲原生和 AI，基於 SLS 的可觀測分析創新

10 月 31 日，杭州雲棲大會上，日誌服務 SLS 研發負責人簡志和產品經理孟威等發表了《日誌服務 SLS 深度解析：擁抱雲原生和 AI，基於 SLS 的可觀測分析創新》的主題演講，對阿里雲日誌服務 SLS 產品服務創新以及背後的技術積累

2023-12-15 01:19:01

倒排索引關鍵點普及

倒排索引倒排索引是什麼？爲什麼es、hbase、doris、starrocks都有倒排索引？倒排索引（英文：Inverted Index），是一種索引方法，常被用於全文檢索系統中的一種單詞文檔映射結構。現代搜索引擎絕大多數的索引都是基

2024-03-21 00:14:06

用戶案例｜向量引擎在攜程酒店搜索中的應用場景和探索

加入 Zilliz AI 初創計劃 Zilliz AI 初創計劃是面向 AI 初創企業推出的一項扶持計劃，預計提供總計 1000 萬元的 Zilliz Cloud 抵扣金，致力於幫助 AI

2024-03-15 15:54:11

2024 年，向量數據庫的性能捲到什麼程度了？

本文作者爲 Zilliz 首席工程師 Alexandr Guzhva、Zilliz 首席工程師劉力對於數據庫（尤其是向量數據庫）而言，“性能”是一個十分關鍵的指標，其用於衡量數據庫是否能夠在有限資源內，高效處理大量用戶請求。對於向量數據

2024-02-22 21:27:05

語言大模型的現狀與未來趨勢

在過去的幾年裏，語言大模型已經成爲了人工智能領域最熱門的話題之一。從最早的基於規則的自然語言處理，到後來的基於統計的方法，再到現在的深度學習模型，語言大模型的發展歷程可以說是波瀾壯闊。語言大模型的現狀目前，語言大模型已經在許多領域得到了

2024-02-22 12:33:56

24小時熱門文章

最新文章

最新評論文章