原创 pandas實現多行合併一行、一行拆分多行

多行合併一行 import pandas as pd #構造數據 data=pd.DataFrame({'id':[1,1,2,2],'品牌':['A','B','C','D']}) #合併數據 data_new=data.group

原创 python實現smote處理正負樣本失衡問題

       機器學習中難免遇到正負樣本不平衡問題,處理辦法通常有梁總,一:過採樣,增加正樣本數據;二:欠採樣,減少負樣本數據,缺點是會丟失一些重要信息。smote屬於過採樣。 代碼 # from imblearn.over_sampl

原创 kettle連接mysql(5.X和8.X)

        kettle需要通過驅動才能連接mysql,由於kettle默認使用的包名是org.gjt.mm.mysql.Driver,而mysql 8.0以上connector已經不再支持這個包名,所以,會出現明明已經將mysql-

原创 mysql多行合併一行,一行拆分多行

多行合併一行 數據 #建表語句 DROP TABLE IF EXISTS `品牌`; CREATE TABLE `品牌` ( `id` int(0) NOT NULL, `品牌` varchar(255) CHARACTER

原创 python3自動發送郵件並添加附件

思路 從數據庫讀取報表數據 將報表數據以excel形式存到本地 將本地報表文件以附件形式添加到郵件發送 設置定時任務 代碼  import pymysql import pandas as pd import smtplib from

原创 python pandas實現partition by組內排序功能

不需要排名列直接得出每門科目前2名數據:  import pandas as pd import numpy as np dic={'科目':['語文','語文','語文','語文','數學','數學','數學','數學','英語','

原创 kettle在Windows環境搭建

        Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩定。,Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個壺裏,

原创 訓練集產生的onehot編碼特徵如何在測試集、預測集復現

       數據處理中有時要用到onehot編碼,如果使用pandas自帶的get_dummies方法,訓練集產生的onehot編碼特徵會跟測試集、預測集不一樣,正確的方式是使用sklearn自帶的OneHotEncoder。 代碼

原创 pyspark:ML和MLlib

       Spark有兩個用於機器學習的庫,分別是ML和MLlib,可以把實際的機器學習以簡單、可伸縮並且無縫的方式與Spark整合起來。Spark中ML和MLlib的主要區別和聯繫如下: (1)目前常用的機器學習功能2個庫都能滿足需

原创 sen's斜率在matlab上的實現

原理        Sen’s斜率估計是Sen於1968提出並發展的一種非參數檢驗法,估計n個樣本中N對數據的趨勢斜率: 案例 對1960-2013年四季氣溫數據進行趨勢檢驗,數據格式如下(部分數據): 時間 春季 夏季 秋季 冬季

原创 mysql8.0裝完啓動不了服務解決辦法

      安裝的過程中有一步提示說MySQL80服務啓動不了,裝完之後找到MySQL80服務,啓動,報錯,錯誤1053,這是因爲網絡服務權限不足導致,所以爲了提高網絡服務權限,需要將網絡服務添加到管理員組,步驟如下:        計算

原创 因子分析在python上的實現

       因子分析(Factor Analysis)是指研究從變量羣中提取共性因子的統計技術,這裏的共性因子指的是不同變量之間內在的隱藏因子。例如,一個學生的數學、物理、化學成績都很好,那麼潛在的共性因子可能是智力水平高。因此,因子分

原创 主成分分析在python上的實現

       主成分分析(PCA)是一種基於變量協方差矩陣對數據進行壓縮降維、去噪的有效方法,PCA的思想是將n維特徵映射到k維上(k<n),這k維特徵稱爲主成分,是舊特徵的線性組合,這些線性組合最大化樣本方差,儘量使新的k個特徵互不相關

原创 爬蟲二:用BeautifulSoup爬取南方週末新聞

爬蟲流程 發起請求,通過使用HTTP庫向目標站點發起請求,即發送一個Request,請求可以包含額外的headers等信息,並等待服務器響應。 獲取響應內容如果服務器能正常響應,則會得到一個Response,Response的內容就是所

原创 爬蟲一:用正則表達式爬取圖片

爬蟲流程 發起請求,通過使用HTTP庫向目標站點發起請求,即發送一個Request,請求可以包含額外的headers等信息,並等待服務器響應。 獲取響應內容如果服務器能正常響應,則會得到一個Response,Response的內容就是所