原创 5-04標註
上一節我們講了數據清晰的內容,通過清晰我們保留了正常的數據,在處理特徵預處理內容之前,我們先要確定標註,反應目的的屬性就是標註,其他有關係的特徵
原创 5-05特徵選擇(特徵預處理第一步)
特徵選擇可以在特徵變化之前,也可以在之後,本章是根據統計學模型、機器學習模型進行相關度排序,相關度差的進行刪除(最終實現降維度) 特徵選擇需要重複做,需要模型去驗證,最終獲得能獲得更好模型的數據 特徵選擇三個切入思路,第一個
原创 5-03異常值處理
#處理異常值 import numpy as np import pandas as pd df = pd.DataFrame({"A":["a0","a1","a1","a2","a3","a4"],"B":["b0","b1"
原创 python將圖片變成水墨畫
from PIL import Image import numpy as np a=np.asarray(Image.open("G:/timg.jpg").convert("L")).astype("float") depth
原创 python爬蟲——requests裏面的response對象
import requests class R(object): def __init__(self): url="http://www.baidu.com" header = {
原创 python爬蟲——設置多個ip代理
import urllib.requests def proxy_user(): proxy_list=[#自己去網上搜免費的或者是付費的 {"http":"183.154.55.162:9999"}, {"http":
原创 Python爬蟲re——常用方法
import re one = 'abc 123' patter = re.compile(' ') result = patter.split(one) print(result) #從頭開始匹配 patter = re.co
原创 python爬蟲——up主信息——正則
import requests import re import json class BookSpider(object): def __init__(self): kw="博士" s
原创 Python爬蟲——bs4
from bs4 import BeautifulSoup import requests url="https://www.douban.com/?p=1" headers = { "User-Agen
原创 Python爬蟲——疫情地圖
import requests import json from pyecharts import Map from lxml import etree class S: def __init__(self):
原创 Python爬蟲——xpath
import requests from lxml import etree url = "https://news.baidu.com" headers = { "User-Agent":"Opera/9.80 (
原创 Python爬蟲re——貪心和點
貪婪和非貪婪 import re #貪婪模式 #非貪婪 one = "meesdfgfnsdekkn" two ='2.5' pattern = re.compile('m(.*)n') pattern1 = re.compile
原创 Python爬蟲——總結小知識點
urllib入門 mport urllib.request #向指定的url地址發送請求,並返回服務器響應的類文件對象 response = urllib.request.urlopen("http://www.baidu.com
原创 python爬蟲——useragent
我們知道即使我們把header換成某個瀏覽器,但是一直用這個瀏覽器訪問,也會被認定位爬蟲,所以要及時更換瀏覽器 import urllib.request import random def load_baidu(): url=
原创 scrapy-亞馬遜
import time import scrapy from scrapy import Request class MobileSpider(scrapy.Spider): name = 'mobile'