爬取貓眼電影top100

原創

2020-06-15 08:14

先獲取首頁的源代碼

def get_one_page(url):
    try:
        headers={
            'User-Agent':'Mozilla/5.0(Macintosh;intel Mac OS 10_11_4)Applewebkit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'
        }
        re=requests.get(url,headers=headers)
        if re.status_code==200:
            return re.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?class="name".*?">(.*?)</a>.*?class="star">(.*?)</p>.*?releasetime.*?>(.*?)</p>',re.S)
    items=re.findall(pattern,html)
    for item in items :
        yield {
            'index':item[0],
            'image':item[1],
            'title':item[2],
            'actor':item[3].strip()[3:],
            'time':item[4].strip()[5:]
        }

def save_one_page(content):
    with open('re.txt','a',encoding='utf8')as f:
        print(type(json.dumps(content)))
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
def main(offest):
    url = ('https://maoyan.com/board/4?offset='+str(offest))
    html = get_one_page(url)
    for item in parse_one_page(html):
        save_one_page(item)

if __name__ == '__main__':
       for i in range(10):
           main(offest=i*10)

結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python：計算類別分佈CalculateClassDistribution

import numpy as np import pandas as pd from sklearn import datasets from sklearn.ensemble import RandomForestClassifie

2020-07-08 07:35:14

Python調用matlab 函數

在python中啓動matlab： engine = matlab.engine.start_matlab() 如果輸入的變量X是表格式的數據（n*d），即 ndarray格式，需要進行轉換後再輸入： data_list= matla

2020-07-08 07:35:11

Python：將sklearn自帶數據轉存爲CSV文件

import numpy as np import pandas as pd from sklearn import datasets X,y = datasets.load_breast_cancer(return_X_y=True

2020-07-08 07:35:10

Python:一排三個子圖

import matplotlib.pyplot as plt import numpy as np import pandas as pd path1 = r"D:\ExperimentalData\Jain\jain.csv" pa

2020-07-08 07:35:10

Python : 一排三個子圖（二）

import matplotlib.pyplot as plt import numpy as np import pandas as pd path11 = r"D:\ExperimentalData\Jain\multiCenter

2020-07-08 07:35:08

Python：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI

參考文獻：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI 原文代碼找了好久沒有找到，至少Github上沒有找到（2020-06-10之前）

2020-07-08 07:35:07

Python：在python中調用Weka的方法

讓您你們失望了，我啥都沒寫。提供鏈接 https://blog.csdn.net/weixin_30832351/article/details/94889557

2020-07-08 07:35:07

Python：兩個ndarray數據進行矩陣乘法

import numpy as np a = np.array([[1,2,3],[1,2,3],[1,2,3]]) # print(a) # print(a ** 2) c = np.array([1,2,3]) b = np.arr

2020-07-08 07:35:07

Python: numpy.random的使用

import numpy as np print(np.random.random()) 0.7714546557122427 輸出單個0-1之間的隨機數 import numpy as np print(np.random.r

2020-07-08 07:35:07

Python：相對標準的DPC

import numpy as np import pandas as pd import copy import matplotlib.pyplot as plt from sklearn import datasets from s

2020-07-08 07:35:07

Python中的kwargs

Python的函數中有幾種參數，一個是基於位置的參數，一個是基於變量名賦值的參數基於位置的參數被*args存入元組中，基於變量名賦值的參數被**kwargs放入一個字典中如： def foo(*args, **kwargs):

清风乐逍遥

2020-07-07 00:00:31

Django的url解析

Django中採用正則表達式來匹配所請求的url，這個叫做URLconf，作爲MVC中的C(控制器)，這樣再調用相應的試圖，達到控制器控制試圖的顯示的效果。看一下Django的url解析過程第一步：我的項目

清风乐逍遥

2020-07-07 00:00:31

Django中的template的神祕用法--繼承

在正常的做網站時，我們都需要編寫很多的html代碼，但你會發現，你會重複很多代碼，而每次，這寫代碼基本上都是複製，然後粘貼，現在有兩種解決方法： 1.使用include標記來引入重複的文件的部分

清风乐逍遥

2020-07-07 00:00:21

python將多行字符串轉換爲單行字符串

python中處理字符串是很好的，有時需要將多行字符串，或着不規則的字符串轉換爲單行字符串，每個單詞直接用空格分開等，如有的含有換行符號，tab符號\t,多個空格，等，可以這樣來轉換爲單行字符串，如： s

清风乐逍遥

2020-07-07 00:00:20

爲什麼說精通 python 的人，天天摸魚，還特麼能薪資翻倍？

Python自從被創造後一直都處於熱度不減的狀態，最大的原因便是它簡單易學的特性，而且可使用的範圍實在太廣。不僅可以用於自動化測試，前端開發，機器學習等IT專業領域，而且更是當下職場人必不可少的一項技能。來看看python到底對日常工作

程序员大牛

2020-07-06 07:21:31

24小時熱門文章

druid數據源 xml配置

最新文章

最新評論文章