DOM & SAX

原創

2020-07-01 09:59

對XML文檔進行解析和數據提取，目前有兩大主流技術:DOM（Document Object Model）和SAX（Simple API for XML）。

(一)DOM

DOM可以看作一組API，它把HTML文檔、XML文檔等看成是一個文檔對象，在接口裏面存放的是對這些文檔操作的屬性和方法的定義。若編程語言實現了這些屬性和方法，就可以對文檔對象中的數據進行存取，並且利用程序對數據做進一步處理。DOM規範的核心是樹模型，對於要解析的XML文檔，首先利用DOM解析器加載到內存中，在內存中爲XML文件建立邏輯形式的樹。

根據 DOM，XML 文檔中的每個成分都是一個節點。DOM 是這樣規定的：

& 整個文檔是一個文檔節點（document）

& 每個 XML 標籤是一個元素節點(element)

& 包含在 XML 元素中的文本是文本節點(Text)

& 每一個 XML 屬性是一個屬性節點(attribute)

& 註釋屬於註釋節點(notation)

另外在 DOM 處理中一個普遍的錯誤是，認爲元素節點包含文本。其實元素節點的文本是存儲在文本節點中的。在這個例子中：<year>2005</year>，元素節點 <year>，擁有一個值爲 "2005" 的文本節點。"2005" 不是 <year> 元素的值。

利用DOM進行解析，掌握：樹型結構的思想，上述結點類型（nodetype），輔之以接口中的屬性方法，一切就easy了。下面使用DOM對book.xml進行遍歷解析：

<?xml version="1.0" encoding="GB2312"?> <書庫> <書種類="歷史"> <標題>上下五千年</標題> <作者>王強</作者> <出版日期>2005</出版日期> <價格>30.00元</價格> </書> <書種類="小說"> <標題>中國，你好</標題> <作者>孫靜</作者> <出版日期>2005</出版日期> <價格>29.99元</價格> </書> <書種類="計算機"> <標題>如何成爲一個程序員</標題> <作者>姜俊傑</作者> <出版日期>2006</出版日期> <價格>49.99元</價格> </書> </書庫>

import java.io.*; import org.w3c.dom.*; import javax.xml.parsers.*; //利用DOM接口解析XML文件 public class DOM{ public static void main(String args[]){ try{ DocumentBuilderFactory docFactory=DocumentBuilderFactory.newInstance(); //創建API工廠 DocumentBuilder docBuilder=docFactory.newDocumentBuilder(); //定義 API，使其從 XML 文檔獲取 DOM 文檔實例 Document document=docBuilder.parse(new File("E://Topic//JAVA//XMLParse//book.xml")); //該XML文件被封裝成document對象，加載到內存 Element root=document.getDocumentElement(); //獲取根元素 String rootName=root.getNodeName(); //根節點名稱 System.out.println("The Topic is :"+rootName); NodeList nodelist=root.getElementsByTagName("書"); //獲取“書”結點集合 int len=nodelist.getLength(); for(int i=0;i<len;i++) { Node node=nodelist.item(i); //"書"結點 String attr=((Element)node).getAttribute("種類"); //獲取屬性結點值 System.out.println("/n種類--"+attr); NodeList nodelist1=node.getChildNodes(); //"書“結點子結點集合 for(int k=0;k<nodelist1.getLength();k++){ Node node1=nodelist1.item(k); if(node1.getNodeType()==Node.ELEMENT_NODE){ //如果是元素結點（每個 XML 標籤是一個元素節點） Element elementnode=(Element)node1; String name=elementnode.getNodeName(); //獲取元素結點值 String content=elementnode.getTextContent(); //獲取文本結點值 System.out.println(name+":"+content); } } } } catch(Exception e){ System.out.println(e); } } }

（二）SAX

SAX不是W3C官方標準，但應用的絲毫不比DOM少。它有兩個主要特點：1）在處理DOM的時候需要將整個XML文檔加載到內存，不適合處理大文檔。而SAX是一種輕量型方法，可以解析任意大小的文件。2）SAX以流的方式讀取XML文件到內存，是事件驅動的。文檔的讀入過程就是SAX的解析過程。

SAX的核心是事件處理機制。當用SAX把一個要解析的XML文件調入內存時，需要對該XML文件讀取，當讀到一個開始標記時，就會觸發一個事件，並調用與該事件相應的方法來處理這個事件。解析器遇到XML文件的開始標記、空白字符、結束標記、標記內容等都會觸發相應的事件。

同樣遍歷book.xml:

import javax.xml.parsers.*; import org.xml.sax.helpers.*; import org.xml.sax.*; import java.io.*; public class SAX{ public static void main(String args[]){ try{ SAXParserFactory factory=SAXParserFactory.newInstance(); SAXParser saxParser=factory.newSAXParser(); //創建SAX解析器 MyHandler1 handler=new MyHandler1(); //創建事件處理器 saxParser.parse(new File("book.xml"),handler); //綁定xml文件和事件處理者 } catch(Exception e){ System.out.println(e); } } } class MyHandler1 extends DefaultHandler{ public void startDocument(){ //解析到文檔開始時調用該方法 } public void endDocument(){ //解析到文檔結束時調用該方法 } public void startElement(String uri,String localName,String qName,Attributes atts){ //標記開始時調用 if(atts.getLength()>0){ System.out.println(atts.getLocalName(0)+"--"+atts.getValue(0)); //獲取屬性名稱和屬性值 } if(qName.compareTo("書庫")!=0&&qName.compareTo("書")!=0) //獲取標籤值 System.out.print(qName+":"); } public void endElement(String uri,String localName,String qName){ //標記結束時調用 } public void characters(char[] ch,int start,int length){ //解析到標記間數據時調用 String text=new String(ch,start,length); System.out.println(text); } }

SAX只是順序檢查XML文檔中的字節流，並觸發相應事件。而對於事件處理函數本身，則要應用程序自己實現。但是對於只需要訪問數據的應用來說，SAX效率是更高的。一般可以將DOM和SAX優勢結合使用，用SAX獲取相應數據，用DOM根據新的需要形成一個XML文件。

運行結果：

The Topic is :書庫

種類--歷史
標題:上下五千年
作者:王強
出版日期:2005
價格:30.00元

種類--小說
標題:中國，你好
作者:孫靜
出版日期:2005
價格:29.99元

種類--計算機
標題:如何成爲一個程序員
作者:姜俊傑
出版日期:2006
價格:49.99元

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DOM & SAX

2024年DataOps趨勢預測：AI不會取代數據工程師

雲原生週刊：K8s 中的服務和網絡｜ 2024.4.29

通過Http鏈接地址爬取有贊微信商城商品信息及下載至EXCEL

多人同時導出 Excel 幹崩服務器！新來的阿里大佬給出的解決方案太優雅了！

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

華爲云云原生FinOps解決方案，釋放雲原生最大價值

DOM & SAX

Jmail郵件發送

所謂的....

心學史上的頓悟

共引聚類分析方法研究

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結