Python數據挖掘與文本分析&Stata應用能力提升與實證前沿雲特訓
Python部分明天(6月29日-7月2日)開始上課,感興趣的童鞋抓緊哦
用Python處理數據大家都不陌生了,屬常規操作,但常規之下還是也有些暗藏技巧的。
本篇分享6個好玩高效的操作,幫助大家提高效率。
一、Pandas Profiling
Pandas Profiling
提供數據的一個整體報告,是一個幫助我們理解數據的過程。它可以簡單快速地對Pandas
的數據框數據進行探索性數據分析。
其實,Pandas
中df.describe()
和df.info()
函數也可以實現數據探索過程第一步。但它們只提供了對數據非常基本的概述。而Pandas
中的Profiling
功能簡單通過一行代碼就能顯示大量信息,同時還能生成交互式HTML
報告。
對於給定的數據集,Pandas中的profiling
包計算了以下統計信息:
由Pandas Profiling
包計算出的統計信息包括直方圖、衆數、相關係數、分位數、描述統計量、其他信息包括類型、單一變量值、缺失值等。
安裝
用pip
和conda
即可,使用方法很簡單,如下:
import pandas as pd
import pandas_profiling
df = pd.read_csv('titanic/train.csv')
pandas_profiling.ProfileReport(df)
用法
以titanic數據集來演示profiling
的功能。
import pandas as pd
import pandas_profiling
df = pd.read_csv('titanic/train.csv')
pandas_profiling.ProfileReport(df)
除了導入庫之外只需要一行代碼,就能顯示數據報告的詳細信息,包括必要的圖表。
還可以使用以下代碼將報告導出到交互式HTML
文件中。
profile = pandas_profiling.ProfileReport(df)
profile.to_file(outputfile="Titanic data profiling.html")
二、pretty print
pprint
是Python中的內置模塊。它能夠以格式清晰,可讀性強漂亮
格式打印任意數據結構。一個例子對比下print
和pprint
。
# 定義個字典,測試用
my_dict = {'Student_ID': 34,'Student_name' : 'Tom', 'Student_class' : 5,
'Student_marks' : {'maths' : 92,
'science' : 95,
'social_science' : 65,
'English' : 88}
}
# 正常的print
print(my_dict)
# 輸出結果如下:
{'Student_ID': 34, 'Student_name': 'Tom', 'Student_class': 5, 'Student_marks': {'maths': 92, 'science': 95, 'social_science': 65, 'English': 88}}
pprint
# 使用pprint輸出
import pprint
pprint.pprint(my_dict)
# 輸出結果如下:
{'Student_ID': 34,
'Student_class': 5,
'Student_marks': {'English': 88,
'maths': 92,
'science': 95,
'social_science': 65},
'Student_name': 'Tom'}
可以清楚看到pprint
的優勢之處,數據結構一目瞭然啊。
三、Python Debugger
交互式調試器也是一個神奇的函數,如果在運行代碼單元格時出現報錯,可以在新行中鍵入%debug
運行它。這將打開一個交互式調試環境,自動轉到報錯發生的位置,並且還可以檢查程序中分配的變量值並執行操作。要退出調試器,按q
。比如下面這個例子。
x = [1,2,3]
y = 2
z = 5
result = y+z
print(result)
result2 = x+y
print(result2)
大家應該能看出x+y
肯定會報錯,因爲二者不是一個類型,無法進行運算操作。然後我們敲入%debug
。
%debug
這時會出現對話框讓我們互交式輸入命令,比如我們可以像下面這樣做。
四、Cufflinks
這個在之前也介紹過,對於數據探索的可視化分析超級好用,低代碼量便可生成漂亮的可視化圖形。下面舉一個例子:
cufflinks
在plotly
的基礎上做了一進一步的包裝,方法統一,參數配置簡單。其次它還可以結合pandas
的dataframe
隨意靈活地畫圖。可以把它形容爲"pandas like visualization"。
比如下面的lins線圖
。
import pandas as pd
import cufflinks as cf
import numpy as np
cf.set_config_file(offline=True)
cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])
再比如box箱型圖
。
cf.datagen.box(20).iplot(kind='box',legend=False)
看着這動態圖就愛不釋手啊,有木有!
五、Pyforest
這是一個能讓你偷懶的import
神器,可以提前在配置文件裏寫好要導入的三方庫,這樣每次編輯腳本的時候就省去了開頭的一大堆import 各種庫
,對於有常用和固定使用庫的朋友來說無疑也是提高效率的工具之一。
pyforest
支持大部分流行的數據科學庫,比如pandas
,numpy
,matplotlib
,seaborn
,sklearn
,tensorflow
等等,以及常用的輔助庫如os
,sys
,re
,pickle
等。
此用法對於自己頻繁調試很方便,但對於那些頻繁跨環境比如和其它人共享腳本調試的時候就不是很好用了,因爲別人不一定使用它。
此庫在之前也詳細介紹過 牛逼!這個Python庫竟然可以偷懶,和import說再見!看下面這個操作就明白了。
六、notebook的筆記高亮
此方法僅適用於Jupyter notebook
中,當我們想高亮筆記,讓筆記變得美觀的時候,這個方法非常的香。
筆記的高亮的顏色根據不同情況分爲幾種,前端的同學一看就明白,區別就是每種顏色代碼的class
類型不一樣,其它只要在div
標籤中寫內容就好。下面看下用法。
藍色代表info
<div class="alert alert-block alert-info">
<b>Tip:</b> Use blue boxes (alert-info) for tips and notes.
If it’s a note, you don’t have to include the word “Note”.
</div>
黃色代表warning
<div class="alert alert-block alert-warning">
<b>Example:</b> Yellow Boxes are generally used to include additional examples or mathematical formulas.
</div>
綠色代表success
<div class="alert alert-block alert-success">
Use green box only when necessary like to display links to related content.
</div>
紅色代表danger
<div class="alert alert-block alert-danger">
It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.
</div>
這裏有個小提示提示下,如果你直接複製到jupyter notebook
中可能會報錯,因爲默認是代碼的格式,所以你需要選中單元格按Esc
變成可切換模式,然後再按Y
切換成文本模式。這時候再運行shift+ok
就ok了。看下面這個例子。
歡迎老鐵們多多分享和點個在看!
往期文章Python語法快速入門
Python網絡爬蟲與文本數據分析
讀完本文你就瞭解什麼是文本分析
綜述:文本分析在市場營銷研究中的應用
R語言dplyr包實操
小案例: Pandas的apply方法
從記者的Twitter關注看他們稿件的黨派傾向?
Pandas時間序列數據操作
70G上市公司定期報告數據集
文本數據清洗之正則表達式
shreport庫: 批量下載上海證券交易所上市公司年報
Numpy和Pandas性能改善的方法和技巧
漂亮~pandas可以無縫銜接Bokeh
YelpDaset: 酒店管理類數據集10+G
半個小時學會Markdown標記語法