一. 前言
學習爬蟲不僅要學習怎樣爬取到一個網頁,更要學習如何將爬取到的內容進行解析,沒有解析的數據是沒有價值的,下面就讓我們看一下網頁中信息標記的三種形式.
二. 三種形式:
1.XML(可擴展標記語言):
(1)主要通過標籤的形式對信息進行標記:
例: <name>內容</name> (中間有內容)
<name/> (中間沒內容)
<!----> (註釋)
2.JSON:
(1)有類型的鍵值對: "key":"value"
(2)鍵和值都要加雙引號表示字符串類型,數字可以不用加雙引號
(3)一個鍵對應多個值時加中括號:
例: "name":["value1", "value2"]
(4)鍵值對嵌套用{,}:
例: "name":{
"oldName":"value1",
"newName":"value2"
}
(5)"key":"value"
"key":["value1", "value2"]
"key":{"subkey":"subvalue"}
3.YAML:
(1)無類型鍵值對 key:value
(2)通過縮進來表達所屬關係
例: name:
oldName:北京理工大學
newName:延安自然科學院
(3)-表達並列關係:
例: name:
-北京理工大學
-延安自然科學院
(4)|標達整塊數據,#表示註釋
例: 個人簡介:| #簡介
我的名字叫馬馬也,位於山東省濟南市,現在是一名在校大二學生,性別男,愛好女,是一個積極向上,擁護黨和國家的三好少年,希望大家多多關注我,
三. 三種信息標記形式的比較:
1.XML:可擴展性好,但繁瑣.主要用於在Internet上的信息交互與傳遞.
2.JSON:信息有類型,適合程序處理(js),較XML簡介.主要用於移動應用雲端和節點的信息通信,無註釋.
3.YAML:信息無類型,文本信息比例最高,可讀性好.各類系統的配置文件,有註釋易讀.