Lazarus網抓。

獲取網頁數據可以使用fpHttpClient。處理html字符串可以使用正則或sax_html。

下面簡單寫下抓頁面的代碼:

program webscarpping;
uses fpHttpClient,classes,sax_html,dom_html,dom;
var HTMLString,url:string;
  doc:THTMLDocument;
  els: TDomNodeList;
  i: smallint;
begin
  url:='http://www.securitychina.com.cn/2018blh/Exhibitors_Detail.asp?NF=2018&UserID=3074';
  HTMLString:= TFPCustomHTTPClient.SimpleGet(url);
  readhtmlfile(doc,TStringStream.create(HTMLString));
  els := doc.GetElementsByTagName('td');
  for i:=0 to els.Count-1 do
      writeln(TDomElement(els[i]).textcontent);
  readln;
end.

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章