利用 Pandas 將數據集中的某列文本拆分爲多行

背景

手頭的項目要求用 Tableau 創建一個 story，數據集是摩拜上海城區用戶使用數據。其中有一個維度的數據處理起來有點棘手。

數據格式

注意 track 這個維度的數據，它表示的是在訂單時間內的行車軌跡，裏面包含了大量座標點。

按照 tidydata 的要求：

Each variable forms a column.
Each observation forms a row.
Each type of observational unit forms a table.

我需要將 track 的座標拆分爲多行。

神來之筆

Google 了問題的解決方式，代碼是

mobike.drop("track",axis = 1).join(mobike["track"].str.split("#",expand = True).stack().reset_index(level = 1,drop = True).rename("track"))

工作原理

解決問題不能光知其然，不知其所以然。所以我將這行代碼逐語句進行了拆分，一探代碼內部的工作原理。

最外層代碼是：

mobike.join({dataset})

這裏調用了 dataframe 的 join 方法，很基礎。

{dataset} 這部分做的工作比較多，首先是 split 方法。Python 的 split 方法可以將字符串按照指定的字符進行分割，這個例子中指定的字符是「#」。如果不加參數 expand = True，split()會返回拆分後的字符串數組。

mobike["track"].str.split("#")
# ["121.372,31.118","121.372,31.119","121.373,31.117","1...]
# ["121.419,31.200","121.419,31.201","121.420,31.199","1...]
# ...

加了 expand = True 會將數組拆開，數組中的每一個元素都會單獨保存。

mobike["track"].str.split("#",expand = True)
# "121.372,31.118" "121.372,31.119" "121.373,31.117" "1... 
# "121.419,31.200" "121.419,31.201" "121.420,31.199" "1...
# ...

到這裏相當於將列中所有文本拆成了一個巨大的表，表中每個單元格有一個值。有些行拆分後的元素比較少，沒有值可以填充的單元格補充 None

stack() 會把整個表逐行堆疊成一列。

這樣就成功的將一列中的所有文本拆分成了多行，而且它是一個 dataframe 。不過到這裏還沒有結束，我們還需要將拆出來的這個 dataframe 與原數據集合並。

注意到拆分出來的 dataframe 是多重索引的，需要用 reset_index() 將多重索引重置掉。在 split() 的時候，我們引入了超級多的 None。這時候就可以通過 reset_index(..., drop =True)將值爲 None 的行刪除。

與原數據集通過 join() 合併的時候，A.join(B),A、B兩個 DataFrame 都需要有名字，因此需要 rename("track")。

至此，我們的任務算做完了。

彩蛋

我在列拆分爲多行的基礎上，還將 track 拆分成了兩個變量——track_x,track_y。這裏用到了 pandas 的函數映射進行數據轉換。

mobike["track" = mobike["track"].split(",")
mobike["track_x"] = mobike["track"].map(lambda x:x[0])
mobike["track_y"] = mobike["track"].map(lambda x:x[1])

通過 map 進行列的擴展速度非常非常快。

本文用到的摩拜數據及演示 notebook 均可在 DataWranglingMethod下載。

利用 Pandas 將數據集中的某列文本拆分爲多行

背景

數據格式

神來之筆

工作原理

彩蛋

利用 Pandas 將數據集中的某列文本拆分爲多行

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結