原创 hadoop與spark搭建及pyspark調用問題

最近趁着有空,在虛擬機裏裝了Ubuntu18.04系統,然後搭建了 hadoop與spark環境,記錄一下。 一、使用的工具版本: jdk-8u241-linux-x64.tar.gz hadoop-2.7.7.tar.gz s

原创 python merge ,suffiex,多個merge連接,後綴無法生效

此處不談如何使用 pandas.merge,主要談 merge函數的參數 suffiex 參考文檔 http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merg

原创 pandas組內排序,並在每個分組內按序打上序號

問題:pandas組內排序,並在每個分組內按序打上序號 描述: pandas dataframe 對dep_id組內的salary排序。希望給下面原本只有前三列的dataframe,添加上第四列。 等價於sql裏的排序函數 row

原创 python astype('category'), 編碼和標籤對應,categories 和 code 映射爲字典

在一些機器學習算法中,經常要對數據進行編碼轉換,轉換後需要查詢標籤和編碼的對應關係,可以使用以下代碼處理。 但是注意下面代碼使用的是 astype(‘category’),它和pd.Category(…)是不一樣的,具體區別請參考文章ht

原创 python 批量更改變量名(列名字符串替換),讀取多個同類型文件合併

# 替換某些變量名中的 某部分 字符串 def re_columns(dt, substr, newstr, ls): """ Parameters ---------- dt : data

原创 python 使用del和drop方法刪除DataFrame的列,使用drop方法一次刪除多列

使用del和drop方法刪除DataFrame中的列,使用drop方法一次刪除多列 # 使用del, 一次只能刪除一列,不能一次刪除多列 # 只能使用 del df['密度'], 不能使用 del df[['密度', '含糖率']]

原创 python 數據錯位相減,上下兩行相減

今天接到一個需求,要求用對數據進行錯位相減。感覺寫得有點麻煩,如果其他方法,歡迎留言交流 數據說明:有客戶、消費日期、消費額度 求解目標:對於同一個客戶,對日期升序排序,如果下一個日期的消費額度大於上一個日期的消費額度,則標記,最終取出第

原创 python list 內嵌列表轉爲一維列表

# 只能是內嵌列表,如果改爲 a = [[1,2,3],[4,5,6], [7], [8,9] , 10] 則無法實現 import itertools a = [[1,2,3],[4,5,6], [7], [8,9]] out = l

原创 Ptyhon matplotlib 繪圖 中文亂碼 不正常顯示

 參考文章:  https://fonttian.blog.csdn.net/article/details/78107421 import pandas as pd import numpy as np import matplotl

原创 使用Python發送郵件(圖片、表格、附件) 系列三: 發送工作報表之透視表自動刷新數據

使用Python發送郵件(圖片、表格、附件) 系列一:如何發送圖片、表格等的全代碼 https://blog.csdn.net/u010652755/article/details/104321413 使用Python發送郵件(圖片、表格

原创 使用Python發送郵件(圖片、表格、附件) 系列一:如何發送圖片、表格等的全代碼

     本文中Part 0 + 中間任何一Part 或組合 + Part 6, 即可將內容正常發送到QQ郵箱。本文使用個人電腦和個人郵箱,對代碼進行了測試,可以正常運行。非常感謝諸位網友的共享,在寫代碼的過程中給了我很大的幫助,如果出現

原创 使用Python發送郵件(圖片、表格、附件) 系列二: 同時發送圖片和附件實際案例

本文是系列一的實際應用案例,同時發送圖片和附件實際案例。 使用Python發送郵件(圖片、表格、附件) 系列一:如何發送圖片、表格等的全代碼https://blog.csdn.net/u010652755/article/details/

原创 python 連接 mysql 數據庫出現 keyerror 255 錯誤

python 連接 mysql 數據庫出現 keyerror: 255,字符集相關錯誤 Traceback (most recent call last): File "<ipython-input-13-850297a5d287

原创 Python 讀取csv文件時數字變成科學計數法(含有e)

       讀取csv時遇到一個長數字(比較長的數字,excel中長度超過16位後,會變成科學計數法顯示)轉換問題。在csv中正常顯示全部數字,沒有變成科學計數法,但用pd.read_csv後就變成了科學計數法顯示, 如下圖顯示。這是個

原创 電腦內存爆滿,使用率超過90%

今天突然發現電腦內存爆滿,使用率超過97%,但是並沒有發現佔用內存高的軟件,後來網上搜索發現了一個可能解決方法: 更新驅動 用360驅動大師更新完後,內存恢復正常,下降到14%。   點贊 收藏 分享