信息標記的三種形式(爬蟲基礎)

一. 前言

學習爬蟲不僅要學習怎樣爬取到一個網頁,更要學習如何將爬取到的內容進行解析,沒有解析的數據是沒有價值的,下面就讓我們看一下網頁中信息標記的三種形式.

 

二. 三種形式:

1.XML(可擴展標記語言):

(1)主要通過標籤的形式對信息進行標記:

例:  <name>內容</name>        (中間有內容)

      <name/>                             (中間沒內容)

      <!---->                                 (註釋)

2.JSON:

(1)有類型的鍵值對:        "key":"value"

(2)鍵和值都要加雙引號表示字符串類型,數字可以不用加雙引號

(3)一個鍵對應多個值時加中括號:

例:  "name":["value1", "value2"]

(4)鍵值對嵌套用{,}:

例:  "name":{

              "oldName":"value1",

              "newName":"value2"

       }

(5)"key":"value"

    "key":["value1", "value2"]

    "key":{"subkey":"subvalue"}

3.YAML:

(1)無類型鍵值對     key:value

(2)通過縮進來表達所屬關係

例:  name:

           oldName:北京理工大學

           newName:延安自然科學院

(3)-表達並列關係:

例:  name:

      -北京理工大學

      -延安自然科學院

(4)|標達整塊數據,#表示註釋

例:  個人簡介:|     #簡介

      我的名字叫馬馬也,位於山東省濟南市,現在是一名在校大二學生,性別男,愛好女,是一個積極向上,擁護黨和國家的三好少年,希望大家多多關注我,

 

三. 三種信息標記形式的比較:

1.XML:可擴展性好,但繁瑣.主要用於在Internet上的信息交互與傳遞.

2.JSON:信息有類型,適合程序處理(js),較XML簡介.主要用於移動應用雲端和節點的信息通信,無註釋.

3.YAML:信息無類型,文本信息比例最高,可讀性好.各類系統的配置文件,有註釋易讀.

 

        

 

  

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章