信息標記的三種形式(爬蟲基礎)

原創

2019-05-02 14:51

一. 前言

學習爬蟲不僅要學習怎樣爬取到一個網頁,更要學習如何將爬取到的內容進行解析,沒有解析的數據是沒有價值的,下面就讓我們看一下網頁中信息標記的三種形式.

二. 三種形式:

1.XML(可擴展標記語言):

(1)主要通過標籤的形式對信息進行標記:

例: <name>內容</name> (中間有內容)

<name/> (中間沒內容)

(註釋)

2.JSON:

(1)有類型的鍵值對: "key":"value"

(2)鍵和值都要加雙引號表示字符串類型,數字可以不用加雙引號

(3)一個鍵對應多個值時加中括號:

例: "name":["value1", "value2"]

(4)鍵值對嵌套用{,}:

例: "name":{

"oldName":"value1",

"newName":"value2"

}

(5)"key":"value"

"key":["value1", "value2"]

"key":{"subkey":"subvalue"}

3.YAML:

(1)無類型鍵值對 key:value

(2)通過縮進來表達所屬關係

例: name:

oldName:北京理工大學

newName:延安自然科學院

(3)-表達並列關係:

例: name:

-北京理工大學

-延安自然科學院

(4)|標達整塊數據,#表示註釋

例: 個人簡介:| #簡介

我的名字叫馬馬也,位於山東省濟南市,現在是一名在校大二學生,性別男,愛好女,是一個積極向上,擁護黨和國家的三好少年,希望大家多多關注我,

三. 三種信息標記形式的比較:

1.XML:可擴展性好,但繁瑣.主要用於在Internet上的信息交互與傳遞.

2.JSON:信息有類型,適合程序處理(js),較XML簡介.主要用於移動應用雲端和節點的信息通信,無註釋.

3.YAML:信息無類型,文本信息比例最高,可讀性好.各類系統的配置文件,有註釋易讀.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

三步共享WIN10的視頻文件給電視盒子播放

家裏有一臺電腦安裝的WIN10，還有幾個接電視機的電視盒子。家裏也有路由器，本身是一個局域網絡，所以不管有線還是無線，WIN10上有共享視頻文件，其它設備應該都是可以播放的。WIN10電腦共享視頻文件，需要做三件事：一、WIN10上打開

2020-07-08 09:12:19

五步詳解小學數學之盈虧問題

給幺兒寫了一個五步詳解小學盈虧問題，比網上搜到的簡單明瞭：一、兩大元素概念：二、盈與虧的概念：三、解決盈虧問題，套用的公式四、問題中除了盈、虧，還有平，就是剛好分完的情況：五、最後的大boss登場，複雜的盈虧計算：

2020-07-08 09:12:18

程序員總結的羽毛球殺球

網上好多羽毛球殺球的教材，感覺沒有講到問題的實質，初學者看看我這一篇：羽毛球殺球理論：

2020-07-08 09:12:15

linux啓動模式

今天安裝了centos 啓動的界面是圖形方式，想改成字符的方式很簡單 /ect/inittab 文件下（root用戶登錄），將id:5 改成 i

2020-07-08 06:31:51

一不小心，上央視了，呵呵！

2020-07-07 20:23:25

國王和電烤箱

國王和電烤箱有一次，在離這兒不遠的一個王國裏，國王把他的兩個顧問叫來，讓他們看一個閃閃發光的金屬盒子。盒子頂上有兩個開口，旁邊有一個旋鈕和一個手柄。 “你們知道這是什麼嗎？”國王問。一個顧問——他是一名工程師——搶先回答

2020-07-07 14:41:56

基於Canvas的刮刮卡刮獎小控件lucky-card

lucky-card是一個實現刮刮卡刮獎效果的js小控件，基於HTML5 Canvas，採用原生js編寫，不依賴任何類庫，支持AMD/CMD模塊化加載，支持iOS、Android和桌面瀏覽器（IE>=9）,Windows Phone

摩羯座-小齐

2020-07-07 11:51:29

perl 常用處理函數

最近，由於項目需要，需要利用Perl把MYSQL數據庫中的某些表的數據輸出到Excel文件中方便打印，備份保存和數據移動。（由於之前未用過Perl，所以學了一下）。需求描述：使用Perl從數據庫中取出數據，把數據輸出到Ex

wangxingbao4227

2020-07-07 06:40:27

KXSW服務搭建筆記

做個筆記 1.一鍵安裝服務腳本： wget --no-check-certificate https://freed.ga/github/shadowsocksR.sh; bash shadowsocksR.sh 2.加速：

2020-07-06 14:28:17

修改Charles的返回值

1、app發出請求，右擊這個接口，點擊Breakpoints，使其被勾選上。 2、點擊菜單--Proxy-Breakpoints Settings，雙擊剛纔勾選的接口，清空Query輸入框，輸入*，取消勾選 Request，點擊OK保存。

2020-07-06 14:28:06

星際譯王(StarDic)音標亂碼問題的解決

http://stardict.sourceforge.net/FAQ Q) How the show the correct phonetics in some babylon dictionaries? A) Download ht

2020-07-06 12:39:45

Response.ContentType+詳細列表

不同的ContentType 會影響客戶端所看到的效果.默認的ContentType爲 text/html 也就是網頁格式. 代碼如:<% resp

2020-07-06 11:57:36

支付寶異步通知notify_url 與同步通知return_url的區別

1、文件列表：alipay_config.php （基本參數配置頁面，填寫商家的支付寶安全校驗碼，合作id,支付寶帳號等內容）index.php （提供給商家的接入頁面，包含了物流信息，商品信息等內容）retu

2020-07-06 05:46:12

破遞歸

最近經常加班，腦子超級不好使，今天被一個很簡單的遞歸搞到了，爲了避免以後重複發生此類事件，將這件醜事記錄下來，提醒自己以後要注意頭腦清醒！！！這個問題是這樣的，存在樹形結構的列表如下 ID Name Par

zhuazhuqingchong

2020-07-07 03:22:43

Requests庫基礎入門

1.Requests庫入門中文文檔：https://requests.readthedocs.io/zh_CN/latest/ gittub地址：https://github.com/requests/requests 更多信息

2020-07-06 08:31:07

24小時熱門文章

最新文章

最新評論文章