【智能】數據科學管道初學者指南

筆者邀請您,先思考:

1 如何學習和應用數據科學?

一端是帶入口的管道,另一端是出口。 管道上還標有五個不同的字母:“O.S.E.M.N.”

“信不信由你,你和數據沒什麼不同。 把自己置身於數據之中,你會明白爲什麼。“

曾幾何時,有一個名叫Data的男孩。 在他的一生中,他總是試圖瞭解他的目的是什麼。 我有什麼價值觀? 我可以對這個世界產生什麼影響? 數據來自哪裏? 看到你和數據之間的任何相似之處? 這些問題始終在他的腦海中,幸運的是,憑藉純粹的運氣,Data終於遇到了一個解決方案,並經歷了一次巨大的變革。

這一切都始於數據沿着行走,當他遇到一個奇怪但有趣的管道時。 一端是帶入口的管道,另一端是出口。 管道上還標有五個不同的字母:“O.S.E.M.N.”。 像他一樣好奇,Data決定進入管道。 長話短說……來了數據和出來的洞察力

說明:本文將簡要介紹對典型數據科學管道中的預期的高級概述。 從構建業務問題到創建可操作的見解。 不要擔心這將是一個容易閱讀!

數據科學是OSEMN

你真棒。 我真棒。 數據科學是OSEMN。 您可能會問爲什麼數據科學“很棒”? 好吧,作爲有抱負的數據科學家,你有機會磨練你的巫師和偵探的力量。 通過巫師,我的意思是擁有自動預測事物的能力! 通過偵探,它能夠找到數據中未知的模式和趨勢!

瞭解數據科學管道如何工作的典型工作流程是邁向業務理解和解決問題的關鍵步驟。 如果您對數據科學管道的工作原理感到恐懼,請不要再說了。 這篇文章適合你! 我從Hilary Mason和Chris Wiggins那裏找到了一個非常簡單的首字母縮略詞,您可以在整個數據科學管道中使用它。 那是O.S.E.M.N.

OSEMN管道

O - 獲取我們的數據 S - 清洗我們的數據 E - 探索/可視化我們的數據將使我們能夠找到模式和趨勢 M - 對我們的數據建模將爲我們提供作爲嚮導的預測能力 N - 解釋我們的數據

業務問題

因此,在我們開始OSEMN管道之前,我們必須考慮的最關鍵和最重要的步驟是瞭解我們試圖解決的問題。 讓我們再說一遍。 在我們開始使用“數據科學”做任何事情之前,我們必須首先考慮我們試圖解決的問題。 如果你想解決一個小問題,那麼最多你會得到一個小解決方案。 如果您有一個大問題要解決,那麼您將有可能獲得一個大的解決方案。

問你自己

  • 我們如何將數據轉換成美元?
  • 我想對這些數據產生什麼影響?
  • 我們的模型帶來了什麼商業價值?
  • 什麼會爲我們節省很多錢?
  • 如何才能使我們的業務更有效地運營?

“把錢拿出來!”

瞭解這一基本概念將帶您走得更遠,並帶領您邁向成爲“數據科學家”的更大步驟(我相信…對不起我不是一個!)但是,這仍然是您必須邁出的非常重要的一步 做! 無論您的模型預測得多好,無論您獲得多少數據,無論您的OSEMN管道如何 ……您的解決方案或可操作的洞察力只會與您爲自己設置的問題一樣好。

“好的數據科學更多地是關於你對數據提出的問題,而不是數據處理和分析” - 萊利紐曼

獲取您的數據

在沒有任何數據的情況下,您無法做任何數據科學家的事情。 根據經驗,在獲取數據時必須考慮一些事項。 您必須識別所有可用數據集(可以來自Internet或外部/內部數據庫)。 您必須將數據提取爲可用格式(.csv,json,xml等)。

所需技能:

  • 數據庫管理:MySQL,PostgresSQL,MongoDB
  • 查詢關係數據庫
  • 檢索非結構化數據:文本,視頻,音頻文件,文檔
  • 分佈式存儲:Hadoops,Apache Spark / Flink

擦洗/清潔您的數據

清理第5列! 管道的這個階段應該需要最多的時間和精力。 因爲您的機器學習模型的結果和輸出僅與您投入的結果和輸出一樣好。 基本上,垃圾進垃圾出。

目的

  • 檢查數據:瞭解您正在使用的每個特徵,識別錯誤,缺失值和損壞記錄
  • 清理數據:丟棄,替換和/或填充缺失的值/錯誤

所需技能

  • 腳本語言:Python,R,SAS
  • 數據處理工具:Python Pandas,R
  • 分佈式處理:Hadoop,Map Reduce / Spark

“準備好的人將他的戰鬥打了一半” - 米格爾·德塞萬提斯

探索(探索性數據分析)

現在,在探索階段,我們試圖瞭解數據的模式和值。 我們將使用不同類型的可視化和統計測試來支持我們的發現。 在這裏,我們將能夠通過各種圖表和分析得出我們數據背後隱藏的含義。 出去探索!

“港口的船舶是安全的 - 但這不是船舶的建造目的。” - 約翰A.謝德。

目的

  • 通過可視化和圖表發現數據中的模式
  • 通過使用統計來識別和測試重要變量來提取特徵

所需技能:

  • Python:Numpy,Matplotlib,Pandas,Scipy
  • R:GGplot2,Dplyr
  • 推論統計
  • 實驗設計
  • 數據可視化

提示:進行分析時,您的“蜘蛛感覺”會刺痛。 有意識發現奇怪的模式或趨勢。 一直在尋找有趣的發現!

設計考慮:大多數時候人們直接進入視覺“讓它完成”。 這都是關於最終用戶的解釋。 專注於您的受衆

建模(機器學習)

有趣的來了。 模型是統計意義上的一般規則。將機器學習模型視爲工具箱中的工具。 您將可以訪問許多算法並使用它們來實現不同的業務目標。 您使用的特徵越多,您的預測能力就越好。 清理數據並發現最重要的特徵後,將模型用作預測工具只會增強您的業務決策。

Predictive Analytics正在成爲改變遊戲規則的方式。 而不是向後看以分析“發生了什麼?”預測分析幫助管理人員回答“下一步是什麼?”和“我們應該怎麼做?”(福布斯雜誌,2010年4月1日)

預測能力示例:在沃爾瑪的供應鏈中可以看到一個很好的例子。 沃爾瑪能夠預測,他們會在颶風季節期間在他們的一家商店銷售他們所有的草莓流行撻。 通過數據挖掘,他們的歷史數據顯示,在颶風事件發生之前銷售的最受歡迎的項目是Pop-tarts。 聽起來很瘋狂,這是一個真實的故事,並提出了不低估預測分析能力的觀點。

目的

  • 深入分析:創建預測模型/算法
  • 評估和優化模型

所需技能

  • 機器學習:監督/非監督算法
  • 評估方法
  • 機器學習庫:Python(Sci-kit Learn)/ R(CARET)
  • 線性代數和多元微積分

“模型是數學中的意見” - 凱茜奧尼爾

解釋(講數據故事)

這是故事時間!最重要的一步是瞭解並學習如何通過溝通解釋您的發現。講述故事是關鍵,不要低估它。它是關於與人交往,說服他們,並幫助他們。理解您的受衆並與他們聯繫的藝術是數據敘事的最佳部分之一。

“我相信講故事的力量。故事讓我們的心靈開啓了一個新的地方,這開啓了我們的思想,往往導致行動“ - 梅琳達蓋茨

情感在數據敘事中起着重要作用。人們不會神奇地理解你的發現。產生影響的最佳方式是通過情感講述你的故事。我們作爲人類自然受到情緒的影響。如果你可以利用你的觀衆的情緒,那麼你的朋友,你是可以控制的。當您呈現數據時,請記住心理學的力量。理解您的受衆並與他們聯繫的藝術是數據敘事的最佳部分之一。

最佳實踐:我強烈建議加強您的數據講故事的一個好習慣是一遍又一遍地進行排練。如果您是父母,那麼對您來說是個好消息。而不是在睡覺前向您的孩子閱讀典型的Dr. Seuss書籍,請嘗試使用您的數據分析結果讓他們入睡!因爲如果一個孩子理解你的解釋,那麼任何人都可以,尤其是你的老闆!

“如果你無法向六歲的孩子解釋,你自己就不明白。” - 愛因斯坦

目的

  • 確定業務洞察:迴歸業務問題
  • 相應地可視化您的發現:保持簡單和優先級驅動
  • 講述一個清晰且可操作的故事:有效地與非技術受衆溝通

所需技能

  • 業務領域知識
  • 數據可視化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn
  • 溝通:演講和報道/寫作

更新您的模型

不要擔心你的故事不會在這裏結束。在您的模型投入生產時,根據您接收新數據的頻率,定期更新模型非常重要。您收到的數據越多,更新的頻率就越高。讓我們說你是亞馬遜,你爲客戶推出了一項新功能,購買“鞋功能”。你是舊模型沒有這個,現在你必須更新包含此功能的模型。如果沒有,您的模型會隨着時間的推移而降級,並且性能不會很好,從而使您的業務也會降級。新功能的引入將通過不同的變化或可能與其他功能的相關性來改變模型性能。

結論

綜上所述,

  • 形成您的業務問題
  • 獲取您的數據

獲取數據,清理數據,使用可視化探索數據,使用不同的機器學習算法建模數據,通過評估解釋數據以及更新模型。

請記住,我們與數據沒有什麼不同。我們都有這個世界存在的價值觀,目的和理由。

事實上,您將面臨的大多數問題都是工程問題。即使有一個偉大的機器學習上帝的所有資源,大多數影響將來自偉大的特徵,而不是偉大的機器學習算法。所以,基本方法是:

  1. 確保您的管道端到端堅固
  2. 從合理的目標開始
  3. 直觀地瞭解您的數據
  4. 確保您的管道保持穩固

希望這種方法可以賺很多錢,並且/或者讓很多人在很長一段時間內感到高興。

所以…下次有人問你什麼是數據科學。告訴他們:

“數據科學是OSEMN”

我希望你們今天學到了一些東西!如果您想在本文中添加任何內容,請隨時留言並不要猶豫!任何形式的反饋都非常值得讚賞。不要害怕分享這個!謝謝!

作者:Randy Lao 原文鏈接

https://www.kdnuggets.com/2018/05/beginners-guide-data-science-pipeline.html

版權聲明:作者保留權利,嚴禁修改,轉載請註明原文鏈接。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章