從大數據到深數據：“神話”破滅是從這4個問題開始的

　　導讀：在機器學習領域一直有一個基礎性的誤解，即更大的數據會產生更好的學習效果。然而，更大的數據並不一定意味着能發現更深刻的信息。

　　實際上，與數據的規模相比，數據的質量、價值和多樣性更值得關注，即數據的“深度”重於“廣度”。本文從四個角度思考了大數據時代的問題並提出了一些建議的做法以改善這些問題。

　　作者：Stephen Smith

　　編譯：Alex，編輯：Debra

　　來源：AI前線(ID：ai-front)

　　最近一段時間，對大數據的炒作正在減弱。雲計算，Hadoop 及其他類似的工具已經有效地解決了大數據的處理問題。

　　但是，仍有大部分人願意在基礎設施上加大投資力度，以期望處理、保存和組織這些大型數據庫。一味的地追求“大”，會在基礎設施和人力資源方面產生一定程度上的不必要成本。

　　而現在，是時候將熱點從“大數據”改爲“深數據”了。如今，我們對待數據應當更加深思熟慮，而不是不加篩選地收集所有可獲得的數據來實現“大數據”。我們現在需要讓一些數據落實到位，並尋求數量和質量的多樣性。這一舉措將帶來許多長期利益。

　　01 四種大數據神話

　　要理解從“大”到“深”的這種轉變，首先讓我們看一下對大數據的一些錯誤觀念。以下是一些嚴重誇大的大數據神話：

　　所有數據都可以並且應當被捕獲和存儲。

　　更多的數據總是有助於建立更準確的預測模型。

　　儲存更多數據的成本幾乎爲零。

　　計算更多數據的成本幾乎爲零。

　　然而：

　　來自物聯網和網絡流量的數據顯然超過了我們的捕獲能力。很多數據都需要在獲取時進行預處理以便儲存和管理。我們需要依照其價值對數據進行分類與篩選。

　　重複使用一千次相同的數據進行訓練並不會提高預測模型的準確性。

　　存儲更多數據的成本不僅僅是亞馬遜網絡服務向您收取的以 TB 計費的美元。同時也包括系統在查找和管理多個數據源的額外複雜性，以及員工移動和使用該數據的“虛擬重量”。這些成本通常高於存儲和計算費用。

　　人工智能算法對計算資源的需求會快速超越彈性雲基礎設施所能提供的算力。在沒有專業的管理策略的情況下，計算資源會呈線性增長，而計算需求則會出現超線性增長，甚至指數級增長。

　　如果輕信了這些神話，你所構建的信息系統可能看起來會像是紙上談兵，或從長期角度看起來很好，但在即時性的框架中實現起來則是複雜且低效的。

　　02 四種大數據問題

　　以下是在數據方面盲目相信“越多越好”會導致的四個問題：

　　重複的數據對模型無益。在爲 AI 構建機器學習模型時，訓練樣本的多樣性至關重要。原因是模型試圖確定概念邊界。例如，如果您的模型試圖通過年齡和職業來定義“退休工人”的概念，那麼像“32 歲的註冊會計師”這樣的重複樣本對該模型並沒有什麼價值，因爲這些人大都沒有退休。在 65 歲的概念邊界中獲得樣本並瞭解退休如何隨職業而變化則更具有價值。

　　低質量數據會對模型有害。在 AI 試圖學習兩個概念之間邊界的過程中，如果新數據是不精確的，或存在錯誤，那麼它會混淆這個邊界。在這種情況下，更多數據無濟於事，並且還有可能會降低現有模型的準確性。

　　大數據增加了時間成本。對於不同學習算法，在 TB 級的數據上構建模型可能會比在數 GB 的數據上構建模型多花費約千倍、甚至萬倍的時間。數據科學本就是快速實驗，雖不完美卻輕量的模型更具有前景。數據科學一旦失去了速度，則失去了未來。

　　大數據環境下易於實現的模型。任何預測模型的最終目的都是創建一個可用於商業部署的高度準確的模型。有時使用來自數據庫深處陰暗面的模糊數據可能會產生更高的準確性，但所使用的數據對於實際部署可能是有風險的。使用一個不太準確卻可以快速部署和運行的模型往往更好。

　　03 四種更好的措施

　　您可以採取一些措施來對抗大數據的“陰暗面”並轉爲深度數據思維：

　　學會在準確性和執行性之前權衡。數據科學家普遍喜歡將目標定爲更準確的模型。實際上，你應當根據準確性和部署速度，計算合理的 ROI 期望，然後再開始你的項目。

　　使用隨機樣本構建每個模型。如果你已經獲得了大數據，那麼沒有理由不使用它。如果可以使用好的隨機抽樣方法，那麼你可以先使用小樣本建立模型，然後在整個數據庫上進行訓練和調試以獲得更準確的預測模型。

　　丟棄一些數據。如果您對來自物聯網設備和其他來源的流數據感到不知所措，請拋棄一些數據，不要有太大的負擔。如果你無法購買足夠的磁盤來存儲多餘的數據，它會破壞你在數據科學生產線後期的所有工作。

　　尋找更多數據源。人工智能最近的許多突破並不是因爲更大的數據集，而是能夠將機器學習算法成功的運用於這些數據，這在之前是無法實現的。例如，如今普遍存在的大型文本，圖像，視頻和音頻數據集在二十年前並不存在。你應當不斷尋找新的數據以找到更好的機會。

　　04 四種得到的改善

　　如果您專注於深度數據而不僅僅是數據的廣度，您將享受到許多好處。以下是一些關鍵問題：

　　一切都會更快。使用較小的數據，您的數據遷移、實驗、訓練和模型測試都會快得多。

　　更少的存儲和計算需求。專注於深度數據意味着您將更加智能地使用更小的磁盤以及雲平臺佔用空間。這將爲你節省一筆可觀的基礎設施成本，用你節省的資金聘請更多數據科學家和 AI 專家吧!

　　低壓的 IT 人員和更高幸福感的數據科學家。憑藉深厚的數據文化，您的 IT 團隊將不會願意聽從數據科學家的意見行事，或者不得不終止所有因沉浸於雲資源而失控的作業。同樣，當數據科學家花費更多時間構建和測試模型，而不是將這些時間消耗在遷移數據或等待長時間的訓練過程時，他們會更加高興。

　　更難的問題可以解決。構建 AI 模型並不是一種神奇的體驗，只能由類似巫師的研究人員執行。事實上，邏輯遠比魔術更重要。這類似於一位藝術老師的故事，他告訴半個班級，他們的成績將取決於他們製作的藝術品的數量，另一半的成績將根據他們最好的作品的質量進行評分。很多學生都創造了大量的藝術品，並且令人震驚的是，這些藝術品的質量也都不差。數量和質量很多時候並不矛盾。這則例子是想說明：在相同資源約束下嘗試的更多模型可能意味着可以獲得質量更高的模型。

　　許多公司的決策過程都在逐漸轉變爲數據驅動的方式，這與大數據及其技術方面的突破密不可分。隨着人工智能的興起以及對這些強大資源的處理能力的飽和，我們現在需要更加精確地根據我們的數據需求建立一種理解深度數據而不僅僅是廣度數據的文化。

　　鄭州×××醫院××× http://jbk.39.net/yiyuanzaixian/aynjyy/

從大數據到深數據：“神話”破滅是從這4個問題開始的

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

人工智能助力網約車安全管理

人工智能新方向！這些機器人可能你都沒聽過！

有理有據！700年前就已經知道將有人工智能了

別怕人工智能，你遲早要跟它談戀愛

人工智能會造成大量失業嗎?

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結