golang爬蟲案例

1.1爬蟲步驟

1.明確目標(確定在哪個網站搜索)
2.爬(爬下內容)
3.取(篩選想要的)
4.處理數據(按照你的想法去處理)
代碼如下:

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "regexp"
)

//這個只是一個簡單的版本只是獲取QQ郵箱並且沒有進行封裝操作,另外爬出來的數據也沒有進行去重操作
var (
    // \d是數字
    reQQEmail = `(\d+)@qq.com`
)

// 爬郵箱
func GetEmail() {
    // 1.去網站拿數據
    resp, err := http.Get("https://tieba.baidu.com/p/6051076813?red_tag=1573533731")
    HandleError(err, "http.Get url")
    defer resp.Body.Close()
    // 2.讀取頁面內容
    pageBytes, err := ioutil.ReadAll(resp.Body)
    HandleError(err, "ioutil.ReadAll")
    // 字節轉字符串
    pageStr := string(pageBytes)
    //fmt.Println(pageStr)
	// 3.過濾數據,過濾qq郵箱
	//MustCompile類似Compile但會在解析失敗時panic,主要用於全局正則表達式變量的安全初始化。
    re := regexp.MustCompile(reQQEmail)
	// -1代表取全部
	//Find返回一個保管正則表達式re在b中的所有不重疊的匹配結果及其對應的(可能有的)
	//分組匹配的結果的[][]string切片。如果沒有匹配到,會返回nil。
    results := re.FindAllStringSubmatch(pageStr, -1)
    //fmt.Println(results)

    // 遍歷結果
    for _, result := range results {
		fmt.Println("email:", result[0])
        fmt.Println("qq:", result[1])
    }
}

// 處理異常
func HandleError(err error, reason string) {
    if err != nil {
        fmt.Println(reason, err)
    }
}
func main() {
    GetEmail()
}

輸出結果:
在這裏插入圖片描述

1.2爬郵箱鏈接手機號圖片等

1.文檔:https://studygolang.com/pkgdoc
2.API
re := regexp.MustCompile(reStr),傳入正則表達式,得到正則表達式對象
ret := re.FindAllStringSubmatch(srcStr,-1):用正則對象,獲取頁面頁面,srcStr是頁面內容,-1代表取全部
3.爬郵箱
4.方法抽取
5.爬超鏈接
6.爬手機號
http://www.zhaohaowang.com/
7.爬身份證號
http://henan.qq.com/a/20171107/069413.htm
8.爬圖片鏈接
代碼如下:

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "regexp"
)

var (
    // w代表大小寫字母+數字+下劃線
    reEmail = `\w+@\w+\.\w+`
    // s?有或者沒有s
    // +代表出1次或多次
    //\s\S各種字符
    // +?代表貪婪模式
    reLinke  = `href="(https?://[\s\S]+?)"`
    rePhone  = `1[3456789]\d\s?\d{4}\s?\d{4}`
    reIdcard = `[123456789]\d{5}((19\d{2})|(20[01]\d))((0[1-9])|(1[012]))((0[1-9])|([12]\d)|(3[01]))\d{3}[\dXx]`
    reImg    = `https?://[^"]+?(\.((jpg)|(png)|(jpeg)|(gif)|(bmp)))`
)

// 處理異常
func HandleError(err error, reason string) {
    if err != nil {
        fmt.Println(reason, err)
    }
}

func GetEmail2(url string) {
    pageStr := GetPageStr(url)
    re := regexp.MustCompile(reEmail)
    results := re.FindAllStringSubmatch(pageStr, -1)
    for _, result := range results {
        fmt.Println(result)
    }
}

// 抽取根據url獲取內容
func GetPageStr(url string) (pageStr string) {
    resp, err := http.Get(url)
    HandleError(err, "http.Get url")
    defer resp.Body.Close()
    // 2.讀取頁面內容
    pageBytes, err := ioutil.ReadAll(resp.Body)
    HandleError(err, "ioutil.ReadAll")
    // 字節轉字符串
    pageStr = string(pageBytes)
    return pageStr
}

func main() {
    //2.抽取的爬郵箱
    GetEmail2("https://tieba.baidu.com/p/6051076813?red_tag=1573533731")
    // 3.爬鏈接
    GetLink("http://www.baidu.com/s?wd=%E8%B4%B4%E5%90%A7%20%E7%95%99%E4%B8%8B%E9%82%AE%E7%AE%B1&rsv_spt=1&rsv_iqid=0x98ace53400003985&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_dl=ib&rsv_sug2=0&inputT=5197&rsv_sug4=6345")
    // 4.爬手機號
    GetPhone("https://www.zhaohaowang.com/")
    // 5.爬身份證號
    GetIdCard("https://henan.qq.com/a/20171107/069413.htm")
    // 6.爬圖片
    GetImg("http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E7%BE%8E%E5%A5%B3")
}

func GetIdCard(url string) {
    pageStr := GetPageStr(url)
    re := regexp.MustCompile(reIdcard)
    results := re.FindAllStringSubmatch(pageStr, -1)
    for _, result := range results {
        fmt.Println(result)
    }
}

// 爬鏈接
func GetLink(url string) {
    pageStr := GetPageStr(url)
    re := regexp.MustCompile(reLinke)
    results := re.FindAllStringSubmatch(pageStr, -1)
    for _, result := range results {
        fmt.Println(result[1])
    }
}

//爬手機號
func GetPhone(url string) {
    pageStr := GetPageStr(url)
    re := regexp.MustCompile(rePhone)
    results := re.FindAllStringSubmatch(pageStr, -1)
    for _, result := range results {
        fmt.Println(result)
    }
}

func GetImg(url string) {
    pageStr := GetPageStr(url)
    re := regexp.MustCompile(reImg)
    results := re.FindAllStringSubmatch(pageStr, -1)
    for _, result := range results {
        fmt.Println(result[0])
    }
}

1.3. 併發爬取美圖

併發爬思路:
1.初始化數據管道
2.爬蟲寫出:26個協程向管道中添加圖片鏈接
3.任務統計協程:檢查26個任務是否都完成,完成則關閉數據管道
4.下載協程:從管道里讀取鏈接並下載
下面的是即將要爬的網站
https://www.bizhizu.cn/shouji/tag-%E5%8F%AF%E7%88%B1/1.html
代碼如下:

package main

import (
    "fmt"
    "io/ioutil"
    "net/http"
    "regexp"
    "strconv"
    "strings"
    "sync"
    "time"
)

func HandleError(err error, why string) {
    if err != nil {
        fmt.Println(why, err)
    }
}

// 下載圖片,傳入的圖片叫什麼
func DownloadFile(url string, filename string) (ok bool) {
    resp, err := http.Get(url)
    HandleError(err, "http.get.url")
    defer resp.Body.Close()
    bytes, err := ioutil.ReadAll(resp.Body)
    HandleError(err, "resp.body")
    filename = "C:/Users/zyq/go/src/yj/testhttp/link" + filename
    // 寫出數據
    err = ioutil.WriteFile(filename, bytes, 0666)
    if err != nil {
        return false
    } else {
        return true
    }
}
var (
    // 存放圖片鏈接的數據channel
    chanImageUrls chan string
    waitGroup     sync.WaitGroup
    // 用於監控協程
    chanTask chan string
    reImg    = `https?://[^"]+?(\.((jpg)|(png)|(jpeg)|(gif)|(bmp)))`
)

func main() {
    // myTest()
    // DownloadFile("http://i1.shaodiyejin.com/uploads/tu/201909/10242/e5794daf58_4.jpg", "1.jpg")

    // 1.初始化管道
    chanImageUrls = make(chan string, 1000000)
    chanTask = make(chan string, 26)
    // 2.爬蟲協程
    for i := 1; i < 27; i++ {
        waitGroup.Add(1)
        go getImgUrls("https://www.bizhizu.cn/shouji/tag-%E5%8F%AF%E7%88%B1/" + strconv.Itoa(i) + ".html")
    }
    // 3.任務統計協程,統計26個任務是否都完成,完成則關閉管道
    waitGroup.Add(1)
    go CheckOK()
    // 4.下載協程:從管道中讀取鏈接並下載
    for i := 0; i < 5; i++ {
        waitGroup.Add(1)
        go DownloadImg()
    }
    waitGroup.Wait()
}

// 下載圖片
func DownloadImg() {
    for url := range chanImageUrls {
        filename := GetFilenameFromUrl(url)
        ok := DownloadFile(url, filename)
        if ok {
            fmt.Printf("%s 下載成功\n", filename)
        } else {
            fmt.Printf("%s 下載失敗\n", filename)
        }
    }
    waitGroup.Done()
}

// 截取url名字
func GetFilenameFromUrl(url string) (filename string) {
    // 返回最後一個/的位置
    lastIndex := strings.LastIndex(url, "/")
    // 切出來
    filename = url[lastIndex+1:]
    // 時間戳解決重名
    timePrefix := strconv.Itoa(int(time.Now().UnixNano()))
    filename = timePrefix + "_" + filename
    return
}

// 任務統計協程
func CheckOK() {
    var count int
    for {
        url := <-chanTask
        fmt.Printf("%s 完成了爬取任務\n", url)
        count++
        if count == 26 {
            close(chanImageUrls)
            break
        }
    }
    waitGroup.Done()
}

// 爬圖片鏈接到管道
// url是傳的整頁鏈接
func getImgUrls(url string) {
    urls := getImgs(url)
    // 遍歷切片裏所有鏈接,存入數據管道
    for _, url := range urls {
        chanImageUrls <- url
    }
    // 標識當前協程完成
    // 每完成一個任務,寫一條數據
    // 用於監控協程知道已經完成了幾個任務
    chanTask <- url
    waitGroup.Done()
}

// 獲取當前頁圖片鏈接
func getImgs(url string) (urls []string) {
    pageStr := GetPageStr(url)
    re := regexp.MustCompile(reImg)
    results := re.FindAllStringSubmatch(pageStr, -1)
    fmt.Printf("共找到%d條結果\n", len(results))
    for _, result := range results {
        url := result[0]
        urls = append(urls, url)
    }
    return
}

// 抽取根據url獲取內容
func GetPageStr(url string) (pageStr string) {
    resp, err := http.Get(url)
    HandleError(err, "http.Get url")
    defer resp.Body.Close()
    // 2.讀取頁面內容
    pageBytes, err := ioutil.ReadAll(resp.Body)
    HandleError(err, "ioutil.ReadAll")
    // 字節轉字符串
    pageStr = string(pageBytes)
    return pageStr
}

原文鏈接:https://editor.csdn.net/md/?articleId=105269729

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章