概述
企業需要根據樣本採集回來的數據情況進行有條件的分析計算出一個基本值或者多個維度的多個基本值,然後用該基本值作參考來評估每一個數據的情況,進行業務活動.
不確定性:
- 樣本數據準確性低
- 樣本數據的缺胳膊少腿的現象嚴重
- 樣本數據的多樣性
由於樣本數據需要進過一定條件的篩選過濾和處理,客戶.對樣本地點進過什麼樣的處理沒有直接概念,以及對數據的處理準確性有疑問
數據量大
- 樣本數據達到5萬左右,涉及的關聯條件多,導致數據追蹤困難.
- 處理的數據達80萬左右,數據清洗的規則複雜,不好監控
多算法
- 數據清洗的算法目前是3中分類,未來可能有更多的分類算法
總結
- 一定要有數據中間結果表,對數據的處理過程不僅能夠分析到而且必須能夠監測到處理過程中的結果數據,因爲客戶隨時都會要求覈對數據
- 性能的規劃,對應處理大數據量在sql性能方面的要求,索引,主鍵,分區,視圖都可以利用起來.
- 大數量的時候最好要分步驟去執行,這樣和過程結果表中數據呼應起來
- 大數據量的時候,能夠提前做的事情可以提前做好,能夠提前篩選和分析的數據可以提前分析,這樣可以減少同一時間資源的消耗,其實就是分時段去做.