NLP | TF-IDF詞頻-逆文件頻率算法解析

一. 什麼是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率) 是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加，但同時會隨着它在語料庫中出現的頻率成反比下降。

上述引用總結就是, 一個詞語在一篇文章中出現次數越多, 同時在所有文檔中出現次數越少, 越能夠代表該文章.

這也就是TF-IDF的含義.

詞頻 (term frequency, TF) 指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被歸一化(一般是詞頻除以文章總詞數), 以防止它偏向長的文件。（同一個詞語在長文件裏可能會比短文件有更高的詞頻，而不管該詞語重要與否。）

但是, 需要注意, 一些通用的詞語對於主題並沒有太大的作用, 反倒是一些出現頻率較少的詞才能夠表達文章的主題, 所以單純使用是TF不合適的。權重的設計必須滿足：一個詞預測主題的能力越強，權重越大，反之，權重越小。所有統計的文章中，一些詞只是在其中很少幾篇文章中出現，那麼這樣的詞對文章的主題的作用很大，這些詞的權重應該設計的較大。IDF就是在完成這樣的工作.

公式 : TFw=在某一類中詞條w出現的次數 / 該類中所有的詞條數目

逆向文件頻率 (inverse document frequency, IDF) IDF的主要思想是：如果包含詞條t的文檔越少, IDF越大，則說明詞條具有很好的類別區分能力。某一特定詞語的IDF，可以由總文件數目除以包含該詞語之文件的數目，再將得到的商取對數得到。

公式 : IDF=log(語料庫的文檔總數 / 包含詞條w的文檔數+1),分母之所以要加1，是爲了避免分母爲0

某一特定文件內的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，可以產生出高權重的TF-IDF。因此，TF-IDF傾向於過濾掉常見的詞語，保留重要的詞語。
　　
TF−IDF=TF∗IDF

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP | TF-IDF詞頻-逆文件頻率算法解析

釘釘打卡速度慢

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

潘石屹用Python解決100個問題 | 乘法口訣

潘石屹用Python解決100個問題 | 奧運五環

TikTok抖音國際版留存背後的數據和算法推演

leetcode No1. 兩數之和

抖音與快手用戶增長策略的“破“與“不破“

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結