對html進行解析,一般是要利用WebBrowser控件,通過WebBrowser來獲得Document2對象,那麼有沒有不用WebBrowser控件,直接將html文本構造成HTMLDocument2對象,從而利用HTMLDocument2對象來進行對html進行解析的方法呢?方法是有的,下面的方法就可以實現[C#]
/* * 本示例通過一個html文件來生成HTMLDocuemt2對象(不使用WebBrowser控件),然後對 * 遍歷該對象的DOM樹。 */ HTMLDocumentClass hc = new HTMLDocumentClass(); IHTMLDocument2 doc2 = hc; string html=""; string filename="..//..//test.htm"; if (!File.Exists(filename)) { Console.WriteLine("文件不存在"); return; } StreamReader sr1 = new StreamReader( (System.IO.Stream)File.OpenRead(filename),System.Text.Encoding.Default); while (sr1.Peek()>-1) { html=html+sr1.ReadToEnd(); } sr1.Close(); doc2.write(html); doc2.close(); //將HTMLDocument2接口轉換成HTMLDocument3接口,因爲後者可以使用IHTMLDOMNod接口。 IHTMLDocument3 HTMLDocument=(IHTMLDocument3)doc2; IHTMLDOMNode rootDomNode=(IHTMLDOMNode)HTMLDocument.documentElement; TreeNode root=treeView1.Nodes.Add("HTML");//treeview1是TreeView組件。 InsertDOMNodes(rootDomNode,root); //遞歸方法,用預於遍歷DOM樹,同時生成一個樹 private void InsertDOMNodes(IHTMLDOMNode parentnode,TreeNode tree_node) { if(parentnode.hasChildNodes())//是否有子結點 { IHTMLDOMChildrenCollection allchild = (IHTMLDOMChildrenCollection)parentnode.childNodes; int length = allchild.length; for(int i=0;i<length;i++)//對每個子結點進行處理,首先取出每個子節點的屬性,然後進行遞歸 { IHTMLDOMNode child_node = (IHTMLDOMNode)allchild.item(i); string m_snodeName =child_node.nodeName; object m_onodevalue =child_node.nodeValue; string m_snodetype =child_node.nodeType.ToString(); string m_snodevalue =""; if ( m_onodevalue!=null) m_snodevalue =m_onodevalue.ToString().Trim(); TreeNode tempnode=null; if (child_node.nodeName.Equals("#text")) { if ((m_snodevalue!=null)&& (!m_snodevalue.Equals(""))) tempnode = tree_node.Nodes.Add(m_snodevalue); } else { tempnode = tree_node.Nodes.Add(child_node.nodeName); InsertDOMNodes(child_node,tempnode); } } } }
|