很多數據是從網上下載而來,數據的格式可能是csv,那麼pandas可以很容易的從csv格式的文件中讀取數據,下面我們來看看具體的過程:
-
引入pandas
-
使用pandas下的read_csv方法,讀取csv文件,參數是文件的路徑,這是一個相對路徑,是相對於當前工作目錄的,那麼如何知道當前的工作目錄呢?
-
使用os.getcwd()方法獲取當前工作目錄
-
讀取前三後數據,查看一下是否讀取正確,顯然都是亂碼,這是什麼問題呢?
-
我們需要設定參數encoding,也就是編碼方式,如果你不設定編碼方式,默認是utf8,現在csv文件是gbk編碼的,所以需要使用encoding='gbk'
-
我用的編輯器是eric4,注意,eric4默認是不支持中文的,如果你想要顯示中文,前提是設置正確的編碼,在preferences中
-
設置成utf8即可
-
回到pandas,我們可以有更多選項來設置打開數據時的操作:
-
-
-