原创 pandas實現多行合併一行、一行拆分多行
多行合併一行 import pandas as pd #構造數據 data=pd.DataFrame({'id':[1,1,2,2],'品牌':['A','B','C','D']}) #合併數據 data_new=data.group
原创 python實現smote處理正負樣本失衡問題
機器學習中難免遇到正負樣本不平衡問題,處理辦法通常有梁總,一:過採樣,增加正樣本數據;二:欠採樣,減少負樣本數據,缺點是會丟失一些重要信息。smote屬於過採樣。 代碼 # from imblearn.over_sampl
原创 kettle連接mysql(5.X和8.X)
kettle需要通過驅動才能連接mysql,由於kettle默認使用的包名是org.gjt.mm.mysql.Driver,而mysql 8.0以上connector已經不再支持這個包名,所以,會出現明明已經將mysql-
原创 mysql多行合併一行,一行拆分多行
多行合併一行 數據 #建表語句 DROP TABLE IF EXISTS `品牌`; CREATE TABLE `品牌` ( `id` int(0) NOT NULL, `品牌` varchar(255) CHARACTER
原创 python3自動發送郵件並添加附件
思路 從數據庫讀取報表數據 將報表數據以excel形式存到本地 將本地報表文件以附件形式添加到郵件發送 設置定時任務 代碼 import pymysql import pandas as pd import smtplib from
原创 python pandas實現partition by組內排序功能
不需要排名列直接得出每門科目前2名數據: import pandas as pd import numpy as np dic={'科目':['語文','語文','語文','語文','數學','數學','數學','數學','英語','
原创 kettle在Windows環境搭建
Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩定。,Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺裏,
原创 訓練集產生的onehot編碼特徵如何在測試集、預測集復現
數據處理中有時要用到onehot編碼,如果使用pandas自帶的get_dummies方法,訓練集產生的onehot編碼特徵會跟測試集、預測集不一樣,正確的方式是使用sklearn自帶的OneHotEncoder。 代碼
原创 pyspark:ML和MLlib
Spark有兩個用於機器學習的庫,分別是ML和MLlib,可以把實際的機器學習以簡單、可伸縮並且無縫的方式與Spark整合起來。Spark中ML和MLlib的主要區別和聯繫如下: (1)目前常用的機器學習功能2個庫都能滿足需
原创 sen's斜率在matlab上的實現
原理 Sen’s斜率估計是Sen於1968提出並發展的一種非參數檢驗法,估計n個樣本中N對數據的趨勢斜率: 案例 對1960-2013年四季氣溫數據進行趨勢檢驗,數據格式如下(部分數據): 時間 春季 夏季 秋季 冬季
原创 mysql8.0裝完啓動不了服務解決辦法
安裝的過程中有一步提示說MySQL80服務啓動不了,裝完之後找到MySQL80服務,啓動,報錯,錯誤1053,這是因爲網絡服務權限不足導致,所以爲了提高網絡服務權限,需要將網絡服務添加到管理員組,步驟如下: 計算
原创 因子分析在python上的實現
因子分析(Factor Analysis)是指研究從變量羣中提取共性因子的統計技術,這裏的共性因子指的是不同變量之間內在的隱藏因子。例如,一個學生的數學、物理、化學成績都很好,那麼潛在的共性因子可能是智力水平高。因此,因子分
原创 主成分分析在python上的實現
主成分分析(PCA)是一種基於變量協方差矩陣對數據進行壓縮降維、去噪的有效方法,PCA的思想是將n維特徵映射到k維上(k<n),這k維特徵稱爲主成分,是舊特徵的線性組合,這些線性組合最大化樣本方差,儘量使新的k個特徵互不相關
原创 爬蟲二:用BeautifulSoup爬取南方週末新聞
爬蟲流程 發起請求,通過使用HTTP庫向目標站點發起請求,即發送一個Request,請求可以包含額外的headers等信息,並等待服務器響應。 獲取響應內容如果服務器能正常響應,則會得到一個Response,Response的內容就是所
原创 爬蟲一:用正則表達式爬取圖片
爬蟲流程 發起請求,通過使用HTTP庫向目標站點發起請求,即發送一個Request,請求可以包含額外的headers等信息,並等待服務器響應。 獲取響應內容如果服務器能正常響應,則會得到一個Response,Response的內容就是所