利用HTMLDocument2對HTML文本進行解析

利用HTMLDocument2對HTML文本進行解析     -|walrus 發表於 2006-8-8 18:34:00

對html進行解析,一般是要利用WebBrowser控件,通過WebBrowser來獲得Document2對象,那麼有沒有不用WebBrowser控件,直接將html文本構造成HTMLDocument2對象,從而利用HTMLDocument2對象來進行對html進行解析的方法呢?方法是有的,下面的方法就可以實現[C#]

   /*
    * 本示例通過一個html文件來生成HTMLDocuemt2對象(不使用WebBrowser控件),然後對
    * 遍歷該對象的DOM樹。
   
   */
   
   HTMLDocumentClass hc = new HTMLDocumentClass();
   IHTMLDocument2 doc2 = hc;
   string html="";
      string filename="..//..//test.htm";
   if (!File.Exists(filename))
   {
     Console.WriteLine("文件不存在");
    return;
   }
   
   StreamReader sr1 = new StreamReader(
    (System.IO.Stream)File.OpenRead(filename),System.Text.Encoding.Default);
   
   while (sr1.Peek()>-1)
   {
    html=html+sr1.ReadToEnd();
   }
   sr1.Close();
   doc2.write(html);
   doc2.close();
   //將HTMLDocument2接口轉換成HTMLDocument3接口,因爲後者可以使用IHTMLDOMNod接口。
   IHTMLDocument3 HTMLDocument=(IHTMLDocument3)doc2;
   IHTMLDOMNode rootDomNode=(IHTMLDOMNode)HTMLDocument.documentElement;
   TreeNode root=treeView1.Nodes.Add("HTML");//treeview1是TreeView組件。
   InsertDOMNodes(rootDomNode,root);
   
   //遞歸方法,用預於遍歷DOM樹,同時生成一個樹
  private void InsertDOMNodes(IHTMLDOMNode parentnode,TreeNode tree_node)
  {
   
   if(parentnode.hasChildNodes())//是否有子結點
   {
    IHTMLDOMChildrenCollection allchild = (IHTMLDOMChildrenCollection)parentnode.childNodes;
    int length = allchild.length;
    for(int i=0;i<length;i++)//對每個子結點進行處理,首先取出每個子節點的屬性,然後進行遞歸
    {
     IHTMLDOMNode child_node = (IHTMLDOMNode)allchild.item(i);
     string m_snodeName  =child_node.nodeName;
     object m_onodevalue =child_node.nodeValue;
     string m_snodetype  =child_node.nodeType.ToString();
     string m_snodevalue ="";
     if ( m_onodevalue!=null)
      m_snodevalue =m_onodevalue.ToString().Trim();
     TreeNode tempnode=null;
     
     if (child_node.nodeName.Equals("#text"))
     {
      if ((m_snodevalue!=null)&& (!m_snodevalue.Equals("")))
       tempnode = tree_node.Nodes.Add(m_snodevalue);
     }
     else
     {
      tempnode = tree_node.Nodes.Add(child_node.nodeName);
      InsertDOMNodes(child_node,tempnode);
     }
    }
   }
  
  }

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章