原创 R語言進行EDA ——ggplot 圖形分面、直方圖 和頻率多邊形

分面通常使用繪圖方法+①facet_wrap(~varible)/facet_wrap(formula)  較適用於單個變量②facet_grid(vertical ~ horizion)/facet_grid(formula)  較適用

原创 監督學習1——迴歸

監督學習:有標記非監督學習:無標記1.線性迴歸線性迴歸的目標是提取輸入變量與輸出變量的關聯線性模型,這就要求實際輸出與線性方程預測的輸出的殘差平方和(sum of squares of differences)最小化。這種方法被稱爲普通最

原创 sql語句去重

有重複數據主要有一下幾種情況: 1.存在兩條完全相同的紀錄 這是最簡單的一種情況,用關鍵字distinct就可以去掉 example: select distinct * from table(表名) where (條件)   CREAT

原创 math、numpy、pandas NaN 判斷以及去除

    轉自https://blog.csdn.net/lanchunhui/article/details/80399681 >> np.nan == np.nan False >> np.nan is np.nan True >>

原创 python機器學習---模型選擇3【欠擬合(高偏差)、過擬合(高方差)以及相關模型改善方法和建議】

一、當模型預測未知數據效果誤差巨大時,解決方法? 當我們用已經訓練好的模型來預測未知數據發現巨大誤差時,下一步要做的改進模型的方法通常有六種: 1.獲得更多的訓練樣本----解決高方差 2.嘗試減少特徵的數量----解決高方差 3.嘗試獲

原创 python機器學習------決策樹

一:理論部分 二、應用(sklearn) 調用sklearn中tree包進行模型訓練,與其他方法類似,比較簡單不贅述,之後補充決策樹相關源碼解析和調參應用

原创 pandas系列總結(2)--- pandas基礎功能(初步瞭解數據及函數)

延續總結(1):pandas系列總結(1) --- pandas數據結構 實際使用中,我常用的DataFrame數據類型,下面瞭解DataFrame基本功能,基本數據集 import pandas as pd import numpy

原创 python 逆轉句子

1.將一個句子逆轉 將一句話的單詞進行倒置,標點不倒置。比如 I like beijing. 經過函數後變爲:beijing. like I #-*- coding:utf8 -*- string = raw_input('string

原创 pandas系列總結(1) --- pandas數據結構

一、Series類型 1.數據創建 Series 是一個帶有 名稱 、索引的一維數組,在 Series 中包含的數據類型可以是整數、浮點、字符串、Python對象等 Pandas 常用的數據結構有兩種:Series 和 DataFra

原创 查看、修改mysql數據庫及表編碼格式

mac中在新建數據時發現不能輸入中文數據,mysql默認編碼格式不支持中文,編碼格式應該有問題,記錄一下: 首先需要定位問題---看整個數據庫中哪裏的編碼有問題,由大到小 1.查看mysql各個編碼格式問題,看到數據庫以及服務的編碼格式是

原创 python--numpy&pandas 函數

相關函數http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame二、常用庫1.NumPy  NumPy是高性能

原创 Python評分卡建模記錄----使用到的各種函數(2)

(七) python的DataFrame排序問題1.按照一列排序frame.sort_index(axis = 0,ascending = True,by = 'a')  #升序   frame.sort_index(axis = 0,a

原创 mac anaconda python連接數據庫

首次嘗試anaconda python連接數據庫,記錄一下 1.  到相應python 版本環境下,下載相應數據庫包,以下爲命令行 source activate python3.5env #進入Python3.5環境下 conda i

原创 gridsearchcv(網格搜索)&kfold validation(k折驗證) in ML

轉自:https://blog.csdn.net/qq_30490125/article/details/80387414 網格搜索算法是一種通過遍歷給定的參數組合來優化給定模型性能的方法。 以決策樹爲例,當我們確定了要使用決策樹算法的時

原创 RuntimeError: dictionary changed size during iteration 解決辦法

在字典遍歷過程中修改字典元素,報錯 RuntimeError: dictionary changed size during iteration 得知遍歷時不能修改字典元素 for k in func_dict.keys():