解說TF-IDF算法在SEO優化中的應用

TF-idf算法其實是一種用戶資訊檢索與資訊探勘的常用加權技術,常常被SEOER們應用到,而很多人或許不太知道,其實最直觀的瞭解就是“網站關鍵詞密度”。


  直接切入主題,TF-idf算法到底是如何計算的:


  公式:


  TF:詞頻


  IDF:逆文本頻率指數


  TF-IDF=TF*IDF


  我們舉例說明,TF詞頻的意思,是指一個詞出現在頁面中的次數,如果一篇文章的總詞語數是200,而“網站優化”這個詞出現了4次,那麼這個詞頻TF=4/200,也就是0.02。


  而IDF也就是很文件頻率,指這個詞在多少頁面出現過計數爲N,文件總數計數爲M,那麼IDF=lg(M/N)。假設“網站優化”在2000個頁面出現,總文件數爲1億,那麼文件頻率IDF=lg(100000000/2000)=4.69897,那麼計算最後的TF-IDF=0.02*4.69897=0.0939794。


  這只是一個判斷一個頁面的相關度的問題,而在SEO網站優化中,並不只是判斷TF-IDF的值加分,我們需要一個識別度高的詞來爲頁面加分。例如:搜索引擎收錄一萬億個頁面,應該說每個頁面都會有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會去除這些詞,所以這些詞的加分權重其實應該是0。計算公式:TF-IDF=log(1萬億/一萬億)=log1=0。


  其實在搜索引擎檢索中,計算權重的時候,會根據每個詞分詞來計算,例如:“SEO網站優化的技巧”這個詞。


  假設:SEO頁面檢索數位2000萬,網站優化的檢索數爲1000萬,技巧的檢索數爲50000萬


  搜索引擎索引總數假設爲100億。


  SEO在www.rlbag.com這個網站中頁面(頁面總詞數400)出現8次,網站優化出現10次,技巧出現16次。


  那麼各自的詞頻


  TF(SEO)=8/400=0.02,


  TF(網站優化)=10/400=0.025


  TF(技巧)=20/400=0.04


  TF(的)=上面已近提到,的屬於高頻停止詞,權重爲0。


  那麼搜索“SEO網站優化的技巧”這個頁面的相關度爲:TF(總)=0.02+0.025+0.05=0.095。


  而IDF(SEO)=LOG(10000000000/20000000)=2.69897


  IDF(網站優化)= LOG(10000000000/10000000)=3


  IDF(技巧)=log(10000000000/100000000)=1.69897


  這麼算下來之後,每個詞爲搜索“SEO網站優化的技巧”爲頁面的權重和相關度貢獻的值分別爲:


  Tf-idf(seo)=0.02*2.69897=0.0539794


  Tf-dif(網站優化)=0.025*3=0.075


  Tf-idf(技巧)=0.04*1.69897=0.0679588


  由此可以看出,雖然技巧出現的頻率更高,但識別度沒有SEO和網站優化高,所以爲頁面的權重貢獻度並不是太大。


  一個詞的預測能力也就是識別度越高,那麼這個詞的權重越大,反之則越小,看到“網站優化“可能你就已經基本瞭解這個頁面要講什麼,但是看到技巧,你可能還不是太明白頁面的主題。


  當然這支持搜索引擎的算法的一個點,我們還要結合標籤來實現權重的提升,例如H標籤,而主關鍵詞周邊的詞也會加分,這裏周邊是指在一個標籤內的例如:SEO網站優化的技巧主要是一些搜索引擎優化思路的介紹
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章