貓眼top100部高分電影spider

原創

2020-06-22 21:14

第一次嘗試Spider,是個突破

#encoding=utf-8

import requests
import re

class MaoYantop:
    def __init__(self):
        self.url = "https://maoyan.com/board/4?offset={}"
        self.headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"}
        self.rank = 0

    def get_url_list(self):
        return [self.url.format(i*10) for i in range(10)]

    def parse_url(self, url):
        response = requests.get(url, headers=self.headers)
        return response.content.decode()

    def run(self):
        #1.生成url列表
        url_list = self.get_url_list()
        #2.發送請求
        for url in url_list:
            html_str = self.parse_url(url)
            #3.正則表達式匹配需要的內容
            ret = re.findall(r'title="(.*?)".*?(主演.*?)\n.*?(上映時間.*?)</p>.*?<i class="integer">(\d\.?).*?(\d)</i></p>',html_str,re.S)
            for temp in ret:
                self.rank += 1 # 排名
                print(self.rank, temp)


if __name__ == "__main__":
    maoyantop = MaoYantop()
    maoyantop.run()

部分內容

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ubuntu16.04下安裝和配置selenium

Install chrome. sudo apt-get update sudo apt-get install -y unzip xvfb libxi6 libgconf-2-4 sudo apt-get install def

2020-07-02 14:22:12

爬蟲小程序 - 爬取王者榮耀全皮膚

學習原因：爬蟲是一門有趣的技術，它可以讓我們感受到程序的魅力，給我們帶來視覺衝擊感和成就感，可以極大地提高我們對編程的學習興趣。 —————— 願你我，都能：遵循君子協議合理使用技術提高學習興趣一. 君子協議爲什

2020-07-01 09:26:27

Python爬取豆瓣前250部電影

爬取豆瓣排名前250的電影 1.準備工作編寫代碼之前，安裝好以下庫：json、request、re、time. 2.爬取分析需要爬取的目標站點爲：https://movie.douban.com/top250?star

2020-06-30 23:33:43

在scrapy框架中判斷數據庫中是否存在某個表來實現表中數據全量更新

現在有這麼個需求：就是我有一個爬蟲腳本，我想把爬取到的數據存入到mysql數據庫裏去（這個是比較簡單的），同時我還想定時執行這個腳本文件，然後讓用戶能及時看到最新的數據，所以就出現一個問題就是如何保證數據庫裏的數據是最新的呢？這裏使用

这孩子谁懂哈

2020-06-30 10:47:00

Scrapy框架流程圖詳解

（一）、Scrapy框架介紹：我們寫一個爬蟲，需要做很多事情，比如：發送網絡請求、數據解析、數據存儲、反爬蟲、反反爬蟲（更換ip代理、設置請求頭等）、異步請求等。這些事情在我們每一次寫爬蟲代碼的時候都要自己從零開始寫的話，比較浪

2020-06-22 21:14:32

xpath練習

DouyuSpider 今天學習了xpath方法，拿鬥魚主播的房間信息做一個練習，有不足之處希望各位大佬幫忙斧正。 #encoding=utf-8 from selenium import webdriver import t

2020-06-22 21:14:31

內涵段子所有段子Spider

代碼不是很完美, 抓取的數據中少數幾個帶有html標籤！ ╮(╯▽╰)╭ 只怪自己太cai, 還沒有想好怎麼把正則表達式寫的再完美一點。抓取代碼 #encoding=utf-8 import requests import

2020-06-22 21:14:31

手機app數據的爬取之mitmproxy安裝途徑

github地址 : https://github.com/mitmproxy/mitmproxy/releases/ mitmproxy下載地址 : https://mitmproxy.org/downloads/ 參考 :

漫天丶飞雪

2020-06-17 06:10:19

python RSA加密最新(RSA/ECB/PKCS1Padding)

遇到一個 java 的RSA/ECB/PKCS1Padding 加密要改成python的網上搜一堆不靠譜的，沒辦法只能自己動手寫一份了中間遇到一個ERROR： OverflowError: 458 bytes need

2020-06-17 03:59:53

利用Python爬取京東網商品信息, 實現可見即可爬

利用Python爬取京東商品信息, 實現可見即可爬以爬取Macbook商品信息爲例，通過Selenium實現可見即可爬的功能關於Selenium的driver配置問題https://blog.csdn.net/qq_19381

2020-06-16 02:31:52

你已經是一個成熟的爬蟲了，應該學會自己去對抗反爬碼農了

點這裏排版好因爲各種原因，這段時間又寫了好多爬蟲（不務正業劃掉 ?），也順帶接着這個機會來總結一下，自己認爲的爬蟲進階技巧 ps: 爬蟲千萬條，剋制第一條。我們也要照顧一下反爬工程師的感受，剋制開多線程，降低併發數以下

2020-06-13 04:40:29

從高可用IP代理池到千萬級網易雲音樂數據爬取的實現

博客引流首先㊗️大家 1024 快樂之前寫了第一版網易雲爬蟲邏輯比較簡單總結一下，就是: 抓取各分類下歌單id 根據歌單id, 獲得這個歌單id下的歌曲詳情把拿到的數據存到落到本地文件，最後利用shell腳本進行數

2020-06-13 04:40:28

可運行的最新的使用scrapy框架爬取鏈家租房數據

看了一圈網上很多爬取鏈家數據的爬蟲，但是由於鏈家已經把網頁結構換掉了，所以原來的網上代碼已經不能夠使用，剛寫了一個最新的爬蟲，可以獲取租房信息。工具： python3.6 scrapy 1.6.0 框架 vscode 編輯器基礎知

这孩子谁懂哈

2020-06-09 08:40:00

利用Scrapy框架爬取數據命令行保存成csv出現亂碼的解決辦法

Scrapy是一個很好的爬蟲框架，但是在我們把爬取的數據保存成csv的時候，我們常常會發現，保存下來的數據是亂碼，網上也搜索了很多中解決辦法，但是很多都是解決不了，先總結下來。我們在命令行裏執行Scrapy框架的時候的步驟如下： 1

这孩子谁懂哈

2020-06-09 08:40:00

python RSA加密

2020-06-03 10:13:18

24小時熱門文章

最新文章

最新評論文章