需要懂一點點的SEO和搜索排名（筆記）

SEO：就是在保證用戶體驗的基礎上，儘量迎合搜索引擎，與研究用戶界面及可用性不同，SEO既要從用戶出發，也要站在搜索引擎的角度考慮問題，才能清晰地知道怎樣優化網站。

SEO人員優化網站就是儘量減少搜索引擎的工作量，降低搜索引擎的工作難度，使搜索引擎能更輕鬆，快速的收錄網站頁面，更準確地提取頁面內容。

搜索引擎的蜘蛛

吸引蜘蛛的因素：
網站和頁面權重，質量高，資格老的網站被認爲權重比較高，這種網站上的頁面被爬行的深度也會比較高。頁面的更新度。蜘蛛每次爬行都會把頁面數據存儲起來。如果第二次爬行發現頁面與第一次收錄的完全一樣，說明頁面沒有更新，蜘蛛也就沒有必要經常抓取。如果頁面內容經常更新，蜘蛛就會更加頻繁的訪問這種頁面，頁面上出現的新鏈接，也自然會被蜘蛛更快地跟蹤，抓取新頁面。導入鏈接。無論是外部鏈接還是同一個網站的內部鏈接，要被蜘蛛抓取，就必須有導入鏈接進入頁面，否則蜘蛛根本沒有機會知道頁面的存在。高質量的高如鏈接也經常使頁面上的導出鏈接被爬行深度增加。與首頁點擊距離。一般來說網站上權重最高的是首頁，大部分外部鏈接是指向首頁的，蜘蛛訪問最頻繁的也是首頁。離首頁單機距離越近，頁面權重越高，被蜘蛛爬行的機會越大。

蜘蛛的預處理：
1.提取文字：現在的搜索引擎還是以文字內容爲基礎。蜘蛛抓取到的頁面中的HTML代碼，除了用戶在瀏覽器上可見的文字外，還包含了大量的html格式標籤，javascript程序等無法用於排名的內容。搜索引擎的預處理首先要做的是，從html文件中去除標籤，程序，提取出可以用於排名處理的網頁文字內容。

//猜測：表現分離的原因，也許有這個吧，搜索引擎可能會把提取文字效率高的頁面，設置相對較高的優先級。javascript要與html分離的原因之一吧。

2.中文分詞：分詞是中文搜索引擎特有的步驟。搜索和處理頁面及用戶搜索都是以詞爲基礎的。英文等語言單詞與單詞之間有空格分隔，搜索引擎索引程序可以直接把句子劃分爲單詞的集合。中文分詞就沒有。

中文分詞方法基本上可以分爲兩種：基於詞典的匹配和基於統計的匹配。

基於詞典的匹配的方法是指：將待分析的一段漢字，與一個事先造好的詞典中的詞條進行匹配，在待分析漢字串中掃描到詞典中已有的詞條則匹配成功。按照掃描方向分爲：正向匹配和逆向匹配。按照匹配長度分爲：最大匹配和最小匹配。也可以混合使用，最大逆向匹配等。
詞典匹配方法計算簡單，其準確度在很大程度中，取決於詞典的完整性和更新情況。
基於統計的分詞方法：分析大量文字樣本，計算出字與字之間相鄰出現的統計概率，幾個字相鄰出現越多，就越能形成一個單詞。基於統計的分詞的優勢是對新出現的詞反應更快速，也有利於消除歧義。
基於詞典匹配和基於統計匹配的分詞方法各有優劣，實際使用中的分詞系統都是混合使用的。快速高效，又能識別生詞，新詞，消除歧義。

中文分詞的準確性往往影響搜索排名的相關性。
百度分詞會把最長匹配的優先級提高，google更傾向於最短匹配。所以在頁面的關鍵字部分，要考慮是主打國內，支持百度，還是？
同時，搜索引擎和會關注語義化的標籤，如h1等，所以更多利益語義化的標籤進行佈局，會有更好的搜索排名。

3.去停止詞：
無論是英文還是中文，頁面內容都會有一些出現頻率很高的字，卻對內容沒有任何影響的詞，如“的”、得，地之內的助詞，啊，哈，呀之類的嘆詞，從而，以，卻之類的副詞或介詞，這些詞被稱爲停止詞，英文中的，the，a,an ,to,of等。搜索引擎在索引頁面之前會去掉這些停止詞，使索引數據主體更爲突出，減少無所謂的計算。

4.消除噪聲：
絕大數頁面，還有一部分內容對頁面主題沒有什麼貢獻，比如版權聲明文字，導航條，廣告等。這些不影響主題的區塊，都屬於噪聲，對頁面主題只能起到分散作用。搜索引擎需要識別並消除這些噪聲，排名時不適用噪聲內容。消除的基本方法是根據html標籤對頁面分塊，區分出頁頭，導航，正文，頁腳，廣告等區域，在網站上大量重複出現的區塊往往屬於噪聲，對頁面進行消噪後，剩下的內容纔是主題內容。

5.去重：
搜索引擎還需要對頁面進行去重。同一篇文章經常重複出現在不同網站及一個網站的不同網址上，搜索引擎不喜歡這種重複的內容。用戶也不喜歡這樣的文章，這個時候搜索引擎就會返回相同文章的一篇，所以在進行索引前還需要識別和刪除重複的內容，這個過程就是去重。

去重的基本方法是：對頁面特徵關鍵詞計算指紋，也就是說，從頁面主體內容中選取最具有代表性的一部分關鍵字（經常是出現頻率最高的關鍵字），然後計算這些關鍵詞的數字指紋。這裏的關鍵詞是在分詞，去停止詞，消噪之後。實驗表明，通常選取10個特徵關鍵詞就可以達到比較高的準確率。

6.正向索引：也稱爲索引。經過文字提取，分詞，消噪，去重後，搜索引擎得到的就是獨特的，能反映頁面主體內容的，以詞爲單位的內容。接下來搜索引擎索引程序就可以提取出關鍵詞，按照分詞程序劃分好的詞，把頁面轉換成一個關鍵詞組成的集合，同時記錄每一個關鍵詞在頁面上出現的頻率，出現次數，格式（如出現在標題標籤，黑體，H標籤，錨標籤等），位置（如頁面第一段文字等）。這樣，每一個頁面都可以記錄爲一串關鍵詞集合，其中每個關鍵詞的詞頻，格式，位置等權重信息都記錄在案。
每個文件都對應一個文件id，文件內容被表示爲一串關鍵詞的集合。實際上在搜索引擎的索引庫中，關鍵詞也已經轉換爲關鍵詞id，這樣的數據結構就稱爲正向索引。

7.倒排索引：
正向索引不能直接用於排名，假設用戶搜索關鍵詞2，如果只存在正向索引，排名程序需要掃描所有索引庫中的文件，找出包含關鍵詞2的文件，在進行相關性計算，這樣的計算量無法滿足實時返回排名結果的要求。所以就出現了倒排索引，把文件對應到關鍵詞的映射轉換爲關鍵詞到文件的映射。關鍵詞唯一。在倒排索引中，關鍵詞是主鍵，每個關鍵詞都對應着一系列文件，這些文件都出現了這個關鍵詞。這樣當用戶搜索某個關鍵詞時，排序程序在倒序所有中定位到這個關鍵詞，就可以馬上找出所有包含這個關鍵詞的文件。

8.鏈接關係計算：
鏈接關係計算，也是預處理中很重要的一部分，現在所有的主流搜索引擎排名因素中都包含網頁之間的鏈接流動信息。搜索引擎在轉去頁面內容後，必須事前就算出，頁面上哪些鏈接是指向哪些其他頁面，每個頁面有哪些導入鏈接，鏈接使用了什麼錨文字，這些複雜的鏈接指向關係形成了網站和頁面的鏈接權重。

9.特殊文件處理：
除了html文件外，搜索引擎通常還能抓取和索引以文字爲基礎的所中文件類型，如pdf，word，wps，ppt，xls，txt等。我們在搜索結果中也經常會看到這些文件類型。

排名：經過搜索引擎蜘蛛抓取頁面，索引程序計算得到倒排索引後，搜索引擎就準備好可以隨時處理用戶搜索了，用戶在搜索框填入關鍵詞後，排名程序調用索引庫數據，計算排名顯示給用戶，排名過程是與用戶直接互動的。

1.搜索詞處理：
搜索引擎接收到用戶輸入的搜索詞後，需要對搜索詞做一些處理，才能進入排名過程。搜索詞處理分爲：中文分詞（與要麼索引時一樣），去停止詞，指令處理（查詢詞完成分詞後，搜索引擎的默認處理方式是在關鍵詞之間使用“與”邏輯，也就是說，用戶在搜索“減肥方法”時，程序分詞爲“減肥”和“方法”兩個詞。另外用戶輸入的查詢還可能包含一些高級搜索指令，如加號，減號等，搜索引擎都需要作出識別和相應的處理。），拼寫錯誤矯正（用戶如果輸入了明顯的字或者英文單詞拼錯，搜索引起會提示用戶正確的數字或拼寫），整合搜索觸發（某些搜索詞會觸發整合搜索，比如明星的名字就經常會觸發圖片和視頻內容，當前的熱門話題又容易觸發資訊內容，哪些詞觸發哪些整合搜索，也需要在搜索詞處理階段處理計算）。

2.文件匹配：
搜索詞經過處理後，搜索引擎得到的是以詞爲基礎的關鍵詞集合，文件匹配階段就是找出包含所有關鍵詞的文件，在索引部分提到的倒排索引使得文件匹配能快速完成。

3.初始子集的選擇：
找到包含所有關鍵字的匹配文件後，還不能進行相關性計算，因爲找到的文件經常會有幾十萬，幾百萬或者上千萬。要對這些文件實時進行相關性計算，需要的時間還是比較長的。實際上，用戶並不需要知道所有匹配的文件，絕大多數用戶只會查看前兩頁，也就是前20個結果，搜索引擎也並不需要計算這麼多頁面的相關性，而只要計算最重要的一部分頁面就可以了，常用的搜索引擎的人都會注意到，搜索結果通常最都就顯示100個，用戶點擊搜索結果頁面底部的下一頁鏈接最多也只能看到100頁，也就是1000個搜索結果。所以搜索引擎只需要計算前1000個結果的相關性，就能滿足要求。但問題在於，還沒有計算相關性時，搜索引擎如果知道哪1000個文件是最相關的？所以用於最後相關性計算的初始頁面子集的選擇，必須依靠其他特徵而不是相關性，其中最主要的就是頁面的權重。由於所有匹配文件都已經具備了最基本的相關性，搜索引擎通常會用非相關性的頁面特徵選出一個初始子集。初始子集的數目是多少？幾萬或者更多。

4.相關性計算：
影響相關性計算的因素：
關鍵詞的常用程度：經過分詞後的多個關鍵詞，對整個搜索字符串的意義貢獻並不相同。越常用的詞對搜索詞的意義貢獻越小，越不常有的詞對搜索詞的意義越大（通信系統量？出現概率越到，熵越小，信息量越小）（比如，搜索：“我們冥王星”，則會忽略“我們”，因爲常用詞的極致就是停止詞）。所以搜索引擎對搜索詞串中的關鍵詞並不是一視同仁的處理，而是根據常用程度進行加權，不常有的詞加權係數高，常用詞的加權係數低，排名算法對不常有的詞給予更多關注。
詞頻及密度：一般認爲在沒有關鍵詞堆積的情況下，搜索詞在頁面中出現的次數多，密度越高，說明頁面與搜索詞越相關，當然這只是一個大致的規律，實際情況未必如此，所以相關性計算還有其他因素。出現頻率及密度只是因素的一部分，而且重要程度越來越低。
關鍵詞位置及形式：就像在索引部分中提出的，頁面關鍵詞出現的格式和位置都被記錄在索引庫中，關鍵詞出現在比較重要的位置，比如標籤，黑體，h1等，說明頁面與關鍵詞越相關。這一部分就是頁面seo所要解決的。
關鍵詞的距離：切分後的關鍵詞完整匹配地出現，說明與搜索詞最相關，比如搜索“減肥方法”時，頁面上連續完整出現“減肥方法”四個字的最相關。
鏈接分析及頁面權重：
除了頁面本身的因素，頁面之間的鏈接和權重關係也影響關鍵詞的相關性，其中最重要的是錨文字。頁面有越多以搜索詞爲錨文字的導入鏈接，說明頁面的相關性越強。鏈接分析還包括了鏈接原頁面的本身主題，錨文字周圍的文字等。

5.排名過濾及調整：
選出匹配文件子集，計算相關性後，大體排名就已經出現了，之後搜索引擎可能還會有一些過濾算法，對排名進行輕微的調整，其中最主要的過濾就是施加懲罰。一些有作弊嫌疑的頁面，雖然按正常的權重和相關性就算排到了前面，但是搜索引擎的懲罰算法去可能在最後把這些頁面調到了後面去。

6.排名顯示：
所有排名確定後，排名程序調用原始頁面的標題標籤，說明標籤，快照日期等數據顯示在頁面上，有時搜索引擎需要動態生成頁面摘要，而不是調用頁面本身的說明標籤。

7.搜索緩存：
用戶搜索的關鍵詞有很大一部分是重複的，按照2/8定律，20%的搜索詞佔到了80%的搜多次數，按照長尾理論，最常見的搜索詞沒有佔到80%那麼多，但通常也有一個比較大的頭部，很少一部分搜索詞佔到了所有搜索次數的很大一部分。尤其是有熱門新聞發生時。如果每次搜索都重新處理排名可以說是很大的浪費。搜索引擎會把最常見的搜索詞存入緩存，用戶搜索時，直接從緩存中調用。而不必經過文件匹配和相關性計算。大大提高了排名效率，縮短了反應時間。

8：查詢及點擊日誌：
搜索用戶的ip地址，搜索的關鍵字，搜索的時間，以及點擊了那些結果頁面，搜索引擎都記錄生成日誌，浙西額日誌文件的數據對搜索引擎判斷搜索結果質量，調整搜索算法，預期搜索趨勢等有重要的意義。

稍微瞭解一下蜘蛛的的爬行，瞭解下搜索引擎的排名規則，對在開發網站中，做更好的SEO是很重要的。

尤其是在網站初始的開發過程中，就規避一些影響蜘蛛爬行，影響排名的因素，做出更優的頁面。

最近準備系統的學習一下前端開發的知識，儲備下~