成爲靠譜的數據科學家——從提出正確的問題開始


作者 | Admond Lee
翻譯 | Mika
CDA 數據分析研究院原創作品,轉載需授權

作爲一名數據科學家,在我們討論如何通過正確的提問對問題進行定義前,讓我們首先看到爲什麼提出正確的問題是如此重要。

在我的第一份數據科學實習中,我對這個項目非常興奮,只是想盡快動手,而沒有弄清楚全局情況。

我首先試着弄清楚我要解決的問題,但卻沒有深入細節確定具體的目標。更糟糕的是,我沒有質疑所要分析和預測的數據集。最終經過兩週的數據清理和分析,我才意識到我對數據做出了錯誤的假設。所有這些都是因爲我對問題和數據缺乏瞭解。

這就是我的故事。

我認爲提出正確的問題和定義問題陳述是許多數據科學初學者(包括我)面臨的一項挑戰。

提問很容易,每個人都會提問。但是提出正確的問題就不容易了,因爲我們不知道哪些問題纔是正確的。

在本文中,我將與你分享作爲數據科學家,該如何提出正確問題並定義問題陳述。希望能夠幫助你應對數據科學生涯中的這些挑戰。

讓我們開始吧!

如何通過提出正確的問題來定義問題陳述?

不管你是否承認,定義問題陳述(或數據科學問題)是數據科學管道中最重要的步驟之一。

在下面的部分中,我們將通過四個步驟來定義問題陳述。

1.理解需要解決的問題

需要確定的機會是什麼?你的受衆所面臨的痛點是什麼?

通常情況下,Kaggle競賽中的問題陳述都是明確定義的。我們可以放心使用給出的數據集,而不必擔心問題陳述給其他人帶來的問題,或如何獲取數據等。

但是,實際工作環境中的問題並沒有被定義,有些問題很曖昧,很模糊。

大多數時候,公司領導層只會給我們一個問題:我有這個“問題”,你能幫我解決這個問題嗎?僅此而已。

我們的任務是幫助他們將問題構建成數據科學問題,從他們的角度看問題。

換句話說,我們需要有同理心。

這時我們需要從領導層的角度,將我們的技術知識與數據結合起來,提出一個促進商業價值的解決方案。

2.根據問題評估情況

在構建了數據科學問題之後,接下來就需要根據問題對形勢進行評估。

這意味着我們需要謹慎分析風險、成本、收益、突發事項、法規、資源和需求。

爲了進一步說明,這裏可以大致分爲以下幾個問題:

這個問題有什麼要求?

有哪些假設和約束條件?

有哪些資源?這裏指的是人員和資金,計算機系統(GPU,可用的CPU),儀器等。

3.瞭解項目的潛在風險和收益

這個步驟是可選的,具體取決於項目的大小和規模。

有些項目可能只處於探索階段,因此如果項目投入生產,潛在風險可能會降低,且未來收益會更大。

這個項目相關的主要成本是多少?

有哪些潛在的收益?

有哪些潛在的風險?

潛在風險中會有哪些突發情況?

回答這些問題有助於更好地瞭解情況,並瞭解項目涉及的內容。對項目有深入的瞭解有助於評估之前定義問題陳述的有效性。

4.定義評估項目成功的指標

這個很重要。你不能只有需要解決的問題,而沒有任何指標來評估項目是否成功。

這歸結爲一個簡單的問題:你希望在項目結束時實現什麼目標?

成果應該是可衡量的,而不是無法量化的。某些指標可能無法立即使用,因此還需要進行數據收集和預處理。

你必須與領導層討論要使用的指標,並且在提出正確問題的早期就應該進行討論。

定義成功標準非常重要,因爲這有助於你在項目整個生命週期內對其進行評估。

結語

我們的最終目標是提出更好的問題和定義明確的問題陳述,從而用數據科學方法進行解決,並生成業務見解和可操作的計劃。

謝謝你的閱讀。希望本文能夠讓你理解提出正確問題以及如何構建問題陳述的重要性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章