pandas提供了一組高級的、靈活的、高效的核心函數,能夠輕鬆的將數據規整化。這節主要對pandas合併數據集的merge函數進行詳解,感興趣的朋友跟隨小編一起看看吧
摘要
數據分析與建模的時候大部分時間在數據準備上,包括對數據的加載、清理、轉換以及重塑。pandas提供了一組高級的、靈活的、高效的核心函數,能夠輕鬆的將數據規整化。這節主要對pandas合併數據集的merge函數進行詳解。(用過SQL或其他關係型數據庫的可能會對這個方法比較熟悉。)碼字不易,喜歡請點贊!!!
1.merge函數的參數一覽表
2.創建兩個DataFrame
3.pd.merge()方法設置連接字段。
默認參數how是inner內連接,並且會按照相同的字段key進行合併,即等價於on=‘key'
。
也可以顯示的設置on=‘key',這裏也推薦這麼做。
當兩邊合併字段不同時,可以使用left_on和right_on參數設置合併字段。當然這裏合併字段都是key所以left_on和right_on參數值都是key。
4.pd.merge()方法設置連接方法。
主要包括inner(內連接)、outer(外鏈接)、left(左連接)、right(右連接)。
參數how默認值是inner內連接,上面的都是採用內連接,連接兩邊都有的值。
當採用outer外連接時,會取並集,並用NaN填充。
外連接其實左連接和右連接的並集。左連接是左側DataFrame取全部數據,右側DataFrame匹配左側DataFrame。(右連接right和左連接類似)
5.pd.merge()方法索引連接,以及重複列名命名。
pd.merge()方法可以通過設置left_index或者right_index的值爲True來使用索引連接,例如這裏df1使用data1當連接關鍵字,而df2使用索引當連接關鍵字。
從上面可以發現兩個DataFrame中都有key列,merge合併之後,pandas會自動在後面加上(_x,_y)來區分,我們也可以通過設置suffixes來設置名字。
總結
以上所述是小編給大家介紹的詳解Python3 pandas.merge用法,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回覆大家的。在此也非常感謝大家對神馬文庫網站的支持!
如果你覺得本文對你有幫助,歡迎轉載,煩請註明出處,謝謝!