原创 python3使用XPath爬取豆瓣電影Top 250

之前用正則寫過爬取豆瓣,這裏就直接粘源碼了 源碼: #-*- coding:utf-8 -*- # author:Air # software: PyCharm #學習交流qq羣:916696436 import requests f

原创 python3 爬取API數據

爬取高考志願填報系統(https://gkcx.eol.cn/)的所有學校 (一)、第一種方法 1.分析請求 2.構造url base_url='https://gkcx.eol.cn/gkcx/api?' data={

原创 python3使用fake_useragent添加請求頭

#-*- coding:utf-8 -*- # author:Air # software: PyCharm #學習交流qq羣:916696436 from fake_useragent import UserAgent #生成對象

原创 python3使用pymysql操作數據庫

導入庫 import pymysql (一)增 def insert(value): # 打開數據庫連接 用戶名 密碼 數據庫名 db = pymysql.connect("localhost", "us

原创 python3爬取梨視頻,並下載到本地

導入相關庫 """ -*- coding:utf-8 -*- author:Air datetime:2019/7/26 22:26 software: PyCharm 學習交流qq羣:916696436 """ import

原创 python3爬取、下載千千音樂榜單

分析網頁:  分別爲一頁和二頁的數據 導入相關庫 import requests from parsel import Selector from multiprocessing import Pool from fake_usera

原创 python3爬取車標網,再也沒有不認識的車標

導入相關庫 """ -*- coding:utf-8 -*- author:Air datetime:2019/7/25 17:40 software: PyCharm 學習交流qq羣:916696436 """ import

原创 scrapy爬取豆瓣電影 Top 250

1.網頁 抓取電影名字、導演、時間、評分、評價人數、評論  2.items class DoubanItem(scrapy.Item): # define the fields for your item here like:

原创 python3爬取貓眼TOP100榜首頁和詳情頁數據

導入相關庫 #-*- coding:utf-8 -*- # author:Air # datetime:2019/5/16 20:32 # software: PyCharm #學習交流qq羣:916696436 import req

原创 python3爬蟲使用bs4和XPath解析數據並保存爲json文件

import requests from bs4 import BeautifulSoup from lxml import etree import re import json from fake_useragent import

原创 json的用法

import json #1.字符串和dict list轉換 #字符串(json)-----dict list data='[{"name":"張三","age":"20"},{"name":"李四","age":"18"}]' li

原创 python3使用bs4爬取豆瓣電影Top 250

import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent useragent=UserAgent() headers={

原创 pandas 去除重複行

DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False ) subset : 指定列,默認情況下使用所有列 keep : {'first','last'

原创 python3爬取中國考研網 考研學校名稱和地區並進行數據清洗

目錄 一、爬取數據 二、數據清洗 一、爬取數據 1.請求頁面 (1)導入包 import requests from bs4 import BeautifulSoup import re import pymysql (2)添加請求頭

原创 python3爬取豆瓣電影Top 250

爬取豆瓣電影Top 250(圖片、排名、名字、作者、評語) (1)導入包 import requests from bs4 import BeautifulSoup import re (2)發送請求 headers={