go利用x/net/html包實現的蜘蛛

原創

2020-02-26 03:50

看了網上很多個spider版本, 幾乎都是使用regexp包正則匹配實現.

其實使用DOC, 性能更好, 也更優雅

package main

import (
   "fmt"
   "net/http"
   "os"
   "golang.org/x/net/html"
)

func visit(links []string, n *html.Node) []string {
   if n.Type == html.ElementNode && n.Data == 'a' {
      for _, a := range n.Attr {
         if a.Key == "href" {
            links = append(links, a.Val)
         }
      }
   }
   for c := n.FirstChild; c != nil; c = c.NextSibling {
      links = visit(links, c)
   }
   return links
}

func main() {
   for _, url := range os.Args[1:] {
      links, err := findLinks(url)
      if err != nil {
         fmt.Fprintf(os.Stderr, "findlinks2: %v\n", err)
         continue
      }
      for _, link := range links {
         fmt.Println(link)
      }
   }
}

func findLinks(url string) ([]string, error) {
   resp, err := http.Get(url)
   if err != nil {
      return nil, err
   }
   if resp.StatusCode != http.StatusOK {
      resp.Body.Close()
      return nil, fmt.Errorf("getting %s: %s", url, resp.Status)
   }
   doc, err := html.Parse(resp.Body)
   resp.Body.Close()
   if err != nil {
      return nil, fmt.Errorf("pax resing %s as HTML: %v", url, err)
   }
   return visit(nil, doc), nil
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

BPF 和 Go: Linux 中的現代內省形式

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-12-20 11:08:55

Go語言開源 12 年，明年重點完善泛型和供應鏈安全

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-12 10:08:56

許式偉：Go+ Together丨Go+ 1.0 發佈會乾貨分享

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-19 18:18:55

這場編程語言的發佈會，不參加可太虧了！

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":"center","origin":null},"content":[{

2021-10-09 17:33:56

kubelet kubeadm 版本號不一致造成worker狀態一直爲NotReady

一、問題在對master、worker節點安裝kubelet kubeadm時剛好k8s的版本更新，之前的安裝是採用默認的安裝，爲指定版本號，造成worker節點加入到master節點時，node節點一直都是notReady狀態。二、

2021-09-12 09:13:30

12年後，Go終於默認支持泛型

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-08-25 08:38:58

技術人最愛Rust，最怕COBOL，工程經理最高薪，懂Clojure最賺錢 | 2021全球開發者報告

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"概述"}]},{"t

2021-08-09 14:38:55

編程語言巔峯之戰，誰纔是真正的王者？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-07-30 12:48:51

從Kratos設計看Go微服務工程實踐

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

腾讯云中间件

2021-07-16 15:33:59

使用Go語言開發流媒體視頻網站

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"簡介","attrs

2021-05-19 19:23:52

許式偉：相比Python，我們可能更需要Go+

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-04-10 14:53:52

極速精簡 Go 版 Logstash

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"前言","attrs

2021-04-06 11:43:49

精通哪些編程語言的程序員更“喫香”？InfoQ 編程語言 3 月排行榜結果揭示

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-04-01 17:53:57

我做了一個Go語言的微服務工具包

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

George Francis Jr

2021-03-22 18:35:34

InfoQ 編程語言 2 月排行榜，更好的投票活動來了

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

InfoQ 中文站

2021-03-22 18:34:58

24小時熱門文章

最新文章

最新評論文章