原创 機器學習類別不平衡問題的解決方法——待完善

機器學習類別不平衡問題的解決方法本文有參考1.《機器學習》 周志華2. https://yq.aliyun.com/articles/2260163.http://blog.csdn.net/heyongluoyao8/article/d

原创 sklearn 支持向量機實踐總結

轉自 http://www.cnblogs.com/pinard/p/6117515.html 之前通過一個系列對支持向量機(以下簡稱SVM)算法的原理做了一個總結,本文從實踐的角度對scikit-learn SVM算法庫的使用做一

原创 Python編碼系列問題-(一)

學習python至今,如果說有什麼問題令我一直頭痛不解,非編碼問題莫屬,遇到過許多編碼問題,每一次都是不同的解決辦法,尤其我經常讀取的是中文文件,同樣類型的編碼報錯,幾乎都是在用不同的方式解決,總讓我琢磨不透,此問題浪費了我python編

原创 【R語言】必學包之dplyr包

【R語言】必學包之dplyr包轉自:https://blog.csdn.net/wltom1985/article/details/54973811R包dplyr可用於處理R內部或者外部的結構化數據,相較於plyr包,dplyr專注接受d

原创 ggplot2學習筆記之標度scale

ggplot2學習筆記之標度scale轉自:http://blog.csdn.net/songzhilian22/article/details/49006391標度(scale),是將數據空間(標度的定義域)映射到圖形屬性空間(標度的值

原创 python數據分析建模每日一題(5月3日)——快速排序、冒泡排序、插入排序、希爾排序

1、快速排序list1 = [1,4,2,3,10,8,7,5,4,2,11,23,15] def quick_sort(L):     if len(L) <= 1: return L     else:         return

原创 R語言基礎——Markdown tutorial

效果展示r模塊```{r}subset(mtcars, mpg >= 30 | hp < 60)```

原创 python數據分析建模每日一題(5月2日)——順時針逆時針打印矩陣

#順時針打印 list1 = [[2,3,4,5],[5,6,7,8],[3,4,5,9],[10,11,23,45],[1,4,7,2]] left = 0 #列起始 top = 0 #行起始 right = len(list1[0])

原创 only integer scalar arrays can be converted to a scalar index

在使用StratifiedShuffleSplit進行交叉驗證時,出現上述錯誤。具體問題發現與解決過程如下:from sklearn.model_selection import StratifiedShuffleSplit sss=St

原创 sql 同時(更新)update和(查詢)select同一張表

當要使用本表的數據更新本表時,容易出錯:如下:update b set aaa=select max(MAX_def_60M) as max from b[Err] 1064 - You have an error in your SQL

原创 R語言進行EDA——R語言基礎

R語言基礎初次編寫R語言程序,根據退件使用指南網站https://www.statmethods.net/一、數據集子集化(數據集篩選)getwd() #獲取當前working directory statesInfo<-read.cs

原创 最大似然估計和最小二乘估計的區別與聯繫

看似最小二乘估計與最大似然估計在推導得到的結果很相似,但是其前提條件必須引起大家的注意!!!對於最小二乘估計,最合理的參數估計量應該使得模型能最好地擬合樣本數據,也就是估計值和觀測值之差的平方和最小,其推導過程如下所示。其中Q表示誤差,Y

原创 監督學習1——房價預測(案例)--待補充

以下將使用帶AdaBoost算法的決策樹迴歸器(decision tree regressor)來預測房價。1.關於adaBoost簡述(其他筆記中將詳細講述)決策樹是一個樹狀模型,每個節點都做出一個決策,從而影響最終結果。葉子節點表示輸

原创 常用數據預處理技術(python實現)

一、特徵規範化方法1. 均值移除( Mean removal)把每個特徵的平均值移除,以保證特徵均值爲0(即標準化處理)。這樣做可以消除特徵彼此間的偏差(bias),變爲均值爲0方差爲1的數據集。(x-mean)/標準差#均值移除from

原创 python 評分卡建模記錄---使用到的各種函數(1)

用python評分卡建模過程中使用到的numpy 和pandas中的方法 (一)python選取特定列——pandas的iloc和loc以及icol使用(列切片及行切片) df是一個dataframe,列名爲A B C D 具體值如下: