文章發佈於公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇乾貨。
來源 | 商業評論精選
作者 | 薩姆·蘭斯博撒姆
數據給商家帶來很多便利的時候,也成爲了這個時代的潮流名詞。無論人們談論用戶行爲還是屬性標籤,數據都變得愈加不可或缺。
但海量數據是否就是一劑萬能靈藥?
作爲管理者,必須瞭解的是:數據是如何生成的,及導致數據變化的因素是什麼。因爲說到底,數據不會說話,人們需要在分析前練就一雙“火眼金睛”。
當波士頓學院的一羣學生開始對UFO目擊報告進行數據分析時,他們發現位於美國華盛頓州的國家UFO報告中心自1974年開始跟蹤UFO的動向以來,收到的UFO目擊報告大幅增加。
然而,這並不意味着天外來客的數量越來越多,而是因爲該中心剛成立時,人們必須拿起電話來報告自己的發現,互聯網普及後,人們只需上網填寫一張表格,因此,UFO目擊報告的數量急劇上升。
再看UFO以外的更多例子,我們發現數據採集成本的降低帶來了多方面的價值。我們比以前擁有了更多數據。
然而,管理者必須清楚地瞭解數據是如何生成的,以及這一生成過程會如何影響數據的價值。在可以獲得的數據越來越多時,管理者應該留意哪些樣本出現偏差?
以下四點做法值得采納:
今天的企業在分析從網絡論壇獲得的豐富且低成本的數據時,必須慎之又慎。
它們必須考慮到,通過社交媒體瞭解到的顧客情況,可能與以往電話或書面調查的數據所反映出來的趨勢並不吻合。
社交媒體固然爲消費者活動提供了特別詳細的數據,能夠讓企業獲得前所未有的海量個人信息。然而,並不是每位顧客都使用社交媒體,同時出於刻意塑造自身形象的需要,也不是每個人在社交媒體上都能做到坦誠。
管理者必須瞭解自己使用的數據是來自哪裏,以及數據生成之後可能會因什麼而發生變化。
龐大的數據量提供了一種虛假安慰,讓管理者誤以爲自己掌握了“更好的”數據,而其實只不過是先前數據的權重增加。
更糟糕的是,數據量的增加會讓樣本偏差更深地隱藏在海量信息中。管理者在試圖獲取更多數據之前,需要對額外數據將產生的新信息進行評估,可以先開展小規模試驗。
他們需要知道從數據中能夠得到什麼,以及如何以低成本達到這一目的。
舊數據源自身也存在樣本偏差。以上文提到的UFO目擊報告爲例:互聯網普及之前,人們只能通過電話與國家UFO報告中心聯繫。由於外州人不得不考慮長途電話的成本,大多數報告都來自華盛頓本州。
無論是新數據源還是舊數據源,對它們的瞭解都需要時間。經驗告訴我們,新舊數據源各自都存在樣本偏差,同時採用它們可以相互取長補短。
判斷樣本是否有偏差,歸根結底是人類的工作。數據本身不會說話,我們需要自行識別缺失的部分。
儘管人工智能和機器學習正在興起,但我們仍然需要人類的專業知識來縱觀全局,確定某個數據源反映了全局的哪個部分。
管理者應當問自己:“對於業務,有哪些是數據無法告訴我們的,但我自己很瞭解的?”
隨着數據分析在企業內部日益普及,越來越多的人需要在分析結果前練就一副“火眼金睛”。
要做到這一點,管理者必須將兩種不同類型的知識結合起來:
一是對數據生成過程背後細節的瞭解,這關乎數據的代表性;二是對業務的宏觀把握和總體認知。
作者簡介:薩姆▪蘭斯博撒姆,波士頓學院卡羅爾管理學院(Carroll School of Management,Boston College)信息系統學副教授。
本文摘自《樣本越多越好嗎》
原文刊登在《商業評論》2019年1月號