New York City Taxi Trip Duration紐約出租車大數據探索(報告版

原文鏈接:https://blog.csdn.net/weixin_44216391/article/details/90142114

一、項目說明
該項目來源於Kaggle,旨在建模來預測紐約出租車在行程中的總行駛時間。
在建模預測的過程中,我們可以順便探索紐約市民打車出行習慣及其他有效信息。
附kaggle項目鏈接 https://www.kaggle.com/c/nyc-taxi-trip-duration/overview

【注】CDSN博客編輯器體驗不佳,本文排版格式失效且圖片丟失。
如需美觀及完整,敬請移步知乎專欄。鏈接:https://zhuanlan.zhihu.com/p/65488432

本文原定內容結構說明:
1、先參考簡書帖子《紐約出租車大數據探索》完成一部分探索,帖子沒有源代碼,所以我會根據帖子思路,自行寫出代碼。帖子網址 https://www.jianshu.com/p/1da53849a314
2、按照帖子文末提出的可以進一步拓展的探索方向,自行深入探索。
3、kaggle比賽目標之預測行程持續時間,另外再開帖子敘述。本文不贅述。

本文分析的技術實現過程,已發佈至個人CDNS博客,詳見:
《【Python】New York City Taxi Trip Duration紐約出租車大數據探索(技術實現過程)》
https://blog.csdn.net/weixin_44216391/article/details/90115972

二、探索分析
帖子的結構爲五部分:
1、提出問題— 2、理解數據— 3、數據清理— 4、數據分析— 5、得出結論
(一)、提出問題(根據已有數據分析)
(1)何時爲打車需求高發期?
(2)居民夜生活活躍情況?
(3)城市一天的什麼時候最爲擁堵?
(4)什麼時間容易接到長途單?
(二)、理解數據(表單說明)
id - 每次行程的唯一ID
vendor_id - 行程提供者的ID
pickup_datetime - 上車的日期和時間
dropoff_datetime - 停表的日期和時間
passenger_count - 車輛中的乘客數量(駕駛員輸入值)
pickup_longitude - 上車的經度
pickup_latitude - 上車的緯度
dropoff_longitude - 下車經度
dropoff_latitude - 下車的緯度
store_and_fwd_flag - 行程記錄是否爲存儲轉發(或是直接發送)-- Y =存儲和轉發 N =沒有存儲
trip_duration - 行程持續時間(秒)
(三)、數據清理
詳見對應的技術實現帖子:
《【Python】New York City Taxi Trip Duration紐約出租車大數據探索(技術實現過程)》
https://blog.csdn.net/weixin_44216391/article/details/90115972
基本確定,數據比較完整。看Kaggle官網也說了,因爲是playground項目,所以已經把數據cleaned了。
(四)、 數據分析與可視化
(1)何時爲打車需求高發期?
(2)居民夜生活活躍情況?
(3)城市一天的什麼時候最爲擁堵?
(4)什麼時間容易接到長途單?
分析一:何時爲打車需求高發期?
分析所需數據維度:新增月標識、周標識、日標識、時間點標識(詳見技術帖)
分析所用到的工具:seaborn可視化、map/apply函數、datetime、lambda、groupby、reset_index()、rename、plt.subplot、sns.swarmplot、sns.boxplot、sns.stripplot等。
1、整體趨勢分析
見下圖:
從趨勢來說,2016年1~6月整體打車時長一直呈增長狀態,可能用戶逐漸習慣了更遠距離也打車,也可能是,路面行駛的車輛越來越多或天氣不好引發交通擁塞。
其中,3月-5月訂單數量屬於六個月中最高的三個月,但是整體下降趨勢。1月下旬和5月底有異常點,這兩天打車人數特別少,可能是當天發生了什麼重大事故,或者是重大節日不出行。
從日折線圖來看,忽略23號和31號兩個異常點,整體訂單數量隨日期變化呈現規律波動,看似週期爲7天(一個星期),據此推測訂單數量可能與星期幾有關。


2、分析異常值
從圖"Date Trip Time"可以定義異常值臨界點爲6000,將低於6000的異常值篩選出來。找出異常的日期是1月23日,1月24日,5月30日。


分析其原因。根據當日美國新聞:
(1)美遭暴風雪襲擊 紐約時報廣場飛雪飄零_網易新聞
2016-1-24 · 當地時間2016年1月23日,美國紐約,美國遭遇暴雪天氣,暴雪中的時報廣場。
(2)陣亡將士紀念日 (5月的最後一個星期一)
中新網5月30日電 據美媒報道,美國迎來“國殤日”長週末,標誌着夏季的正式開始。

3、分析訂單數量可能和星期幾有關
(1)下圖分別爲各月1-31日訂單總量與乘車人數


兩張圖展示了在2016年1月1日至2016年6月30日這半年內,六個月1~31日的每日訂單總量、每日平均乘車人數隨日期的波動。
兩張圖(每日訂單數量/乘車次數與日平均乘車人數)的趨勢驚人地一致。這說明在週期的某一階段,不僅訂單數量增多,而且人們偏向於結伴出行。

(2)下圖爲週一至週日打車次數/訂單數量

明顯週日週一打車次數最低,週五至週六打車次數最高。可能週四至週六市民出行意願更高。
另外發現,週日打車次數/訂單數量在100-300區間內明顯比周一至週六多,這裏可能蘊含一些信息,待挖掘。

(3)下圖爲週一至週日乘車人數
可見,週六週日拼車人數較多。


4、分析訂單數量可能和當日哪個時間點有關
(1)當日內0點至24點乘車次數/訂單數量

1)全天候分析:
凌晨一點開始至凌晨五點,訂單數量急劇下降,符合人羣休息規律。
從早6點開始,訂單量由谷底回升,早7點至早9點有一個早高峯。
在早8點到下午5點之間有輕微波動不明顯。早10點和下午4點均有一個輕微的走低點。
原因推測:
① 市民上班的出行需求被公共交通、私家車等分擔,不會偏好於出租車出行;
② 假設通勤時間1小時,則基本可確定八點至十點是上班時間小集中的時間段。(此結論與原貼不一致,甚至有輕微相反。)
③ 早八點和下午四點這兩個時間點,人羣在公司開會尚未外出(早)或已在出差公司開會還未散會(下午四點)。
2)晚高峯表現顯著:
從晚6點開始訂單量有大規模增長,約晚7點進入打車最高峯,且在23點之前的平均打車量均維持較高水平,高於白天時段。
原因推測:
① 相比於白天,市民在晚上外出活動時更偏向於出租車出行。有可能逐漸下班。
② 也猜測晚間時間家庭出行或約伴出行,下面通過乘車人數認證後發現該假設並不成立。
3)下午時段,四點左右出現訂單量回落。
原因推測:①司機交班;②道路擁堵;③出差人羣在出差公司開會還未散會下班。

(2)當日內0點至24點乘車人數
前面猜測晚間時間家庭出行或約伴出行,這裏乘車人數在晚間並無明顯變化,故前面猜測不成立。
反而發現凌晨2點至5點訂單乘車人數較爲分散,既有較多人(約伴),也有較少人(單人)的情況。
早5點-8點之間,每個訂單乘車人數全日最低(boxplot比較清晰,stripplot沒那麼清晰,下圖是stripplot),恰好又是上班時間,預計是單人上班打車情況較多。

(3)當日內0點至24點打車行程時間分佈
一開始發現三個異常值干擾觀察,嘗試增加boxplot函數中參數y的重新賦值來忽略異常值(week_avg_trip_dur>8000)。——下圖爲已修正三個異常值。

白天早9點至下午5點,行車時間較長,據此可以推測白天這個時間段道路較爲擁塞。
凌晨2點至5點,基本可以排除擁塞影響,行程時間長短可近似等同於距離長短。且分佈在箱盒之外的長行車時間較多,據此推測:凌晨2點至5點這個時間段接到長距離行程單的機會比其他時間段多很多。

分析二:居民夜生活活躍情況?

訂單數量在晚8點至凌晨1點均維持較高水平,從凌晨1點開始,訂單量斷崖式下跌,這一下跌持續到約早5點,早5點是一天內訂單量最低的時刻。
說明紐約市民夜生活活躍情況:
(1)第一種可能:下午/晚上下班後約伴交友燈紅酒綠夜夜笙歌,至凌晨1點方歇。
(2)當然,也有第二種可能是:晚晚加班。白天會議下午法定下班時間後,纔是晚間工作的開始,然後陸陸續續持續到凌晨十二點/一點。
從國情看,紐約的第一種可能性高一些;而第二種則在中國一線城市發生的概率比率高一些。

分析三: 城市的一天什麼時候最爲擁堵?

第一個思路(如下圖):

從前面分析第一部分的“當日內0點至24點打車行程時間分佈”初步推測:
白天早9點至下午5點,行車時間較長,據此可以推測白天這個時間段道路較爲擁塞。
第二個思路(待挖掘):
先通過上下車地點經緯度計算行程距離,再用行程距離/行程時間得出行車均速。行程均速可體現道路暢通擁堵程度。
該思路方法暫時擱置,容後看情況再補充。

分析四:什麼時間容易接到長途單?

接單時間和訂單行程時間/路程距離是否有關係呢?接下來進入分析。
前面已經繪出一日內0點至24點的平均行程時間,我們這裏重新引用:

凌晨2點至5點,基本可以排除擁塞影響,行程時間長短可近似等同於距離長短。且分佈在箱盒之外的長行車時間較多,據此推測:凌晨2點至5點這個時間段接到長距離行程單的機會比其他時間段多很多。

(五)數據探索結論
定位出租車司機最佳pickup時點爲早7點至早9點及晚6點至晚12點。如需長途訂單,可養足精神在凌晨接單。

三、總結
分析到此告一段落。當然,雖然數據量不多,但是還可以挖掘更細緻的城市出行行爲等信息。例如,
可以分析哪些時段的哪些區域更容易發生訂單,人羣一般從哪些地方去往哪些地方——這對出租調度來說是個有效數據。
從暴雪帶來的異常值可以推測,天氣與訂單量是有密切關係的,根據日期對應天氣數據,可以進一步分析天氣與訂單量的影響。
結合位置數據,還可以分析哪些區域受天氣的影響較大,等等。
————————————————
版權聲明:本文爲CSDN博主「SophiaSSSSS」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/weixin_44216391/article/details/90142114

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章