利用HTMLDocument2對HTML文本進行解析

原創

2020-06-15 08:22

利用HTMLDocument2對HTML文本進行解析 -|walrus 發表於 2006-8-8 18:34:00

對html進行解析，一般是要利用WebBrowser控件，通過WebBrowser來獲得Document2對象，那麼有沒有不用WebBrowser控件，直接將html文本構造成HTMLDocument2對象，從而利用HTMLDocument2對象來進行對html進行解析的方法呢？方法是有的，下面的方法就可以實現[C#]

   /*
    * 本示例通過一個html文件來生成HTMLDocuemt2對象（不使用WebBrowser控件），然後對
    * 遍歷該對象的DOM樹。

   */

   HTMLDocumentClass hc = new HTMLDocumentClass();
   IHTMLDocument2 doc2 = hc;
   string html="";
      string filename="..//..//test.htm";
   if (!File.Exists(filename))
   {
     Console.WriteLine("文件不存在");
    return;
   }

   StreamReader sr1 = new StreamReader(
    (System.IO.Stream)File.OpenRead(filename),System.Text.Encoding.Default);

   while (sr1.Peek()>-1)
   {
    html=html+sr1.ReadToEnd();
   }
   sr1.Close();
   doc2.write(html);
   doc2.close();
   //將HTMLDocument2接口轉換成HTMLDocument3接口，因爲後者可以使用IHTMLDOMNod接口。
   IHTMLDocument3 HTMLDocument=(IHTMLDocument3)doc2;
   IHTMLDOMNode rootDomNode=(IHTMLDOMNode)HTMLDocument.documentElement;
   TreeNode root=treeView1.Nodes.Add("HTML");//treeview1是TreeView組件。
   InsertDOMNodes(rootDomNode,root);

   //遞歸方法，用預於遍歷DOM樹，同時生成一個樹
  private void InsertDOMNodes(IHTMLDOMNode parentnode,TreeNode tree_node)
  {

   if(parentnode.hasChildNodes())//是否有子結點
   {
    IHTMLDOMChildrenCollection allchild = (IHTMLDOMChildrenCollection)parentnode.childNodes;
    int length = allchild.length;
    for(int i=0;i<length;i++)//對每個子結點進行處理，首先取出每個子節點的屬性，然後進行遞歸
    {
     IHTMLDOMNode child_node = (IHTMLDOMNode)allchild.item(i);
     string m_snodeName =child_node.nodeName;
     object m_onodevalue =child_node.nodeValue;
     string m_snodetype =child_node.nodeType.ToString();
     string m_snodevalue ="";
     if ( m_onodevalue!=null)
      m_snodevalue =m_onodevalue.ToString().Trim();
     TreeNode tempnode=null;

     if (child_node.nodeName.Equals("#text"))
     {
      if ((m_snodevalue!=null)&& (!m_snodevalue.Equals("")))
       tempnode = tree_node.Nodes.Add(m_snodevalue);
     }
     else
     {
      tempnode = tree_node.Nodes.Add(child_node.nodeName);
      InsertDOMNodes(child_node,tempnode);
     }
    }
   }

  }

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

利用HTMLDocument2對HTML文本進行解析

用c#讀取文件內容中文是亂碼的解決方法

將Html原碼解析成IHTMLDocumet對象,然後使用DOMNode將html顯示成一棵樹

利用HTMLDocument2對HTML文本進行解析

怎樣獲得一個HTML標記的所有屬性和屬性值

如何引用同一解決方案中其他項目的類？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結