關於大數據量不確定性多算法業務開發的總結

原創

zhangxiaojun34901

2020-06-09 12:41

概述

企業需要根據樣本採集回來的數據情況進行有條件的分析計算出一個基本值或者多個維度的多個基本值,然後用該基本值作參考來評估每一個數據的情況,進行業務活動.

不確定性:

樣本數據準確性低
樣本數據的缺胳膊少腿的現象嚴重
樣本數據的多樣性

由於樣本數據需要進過一定條件的篩選過濾和處理,客戶.對樣本地點進過什麼樣的處理沒有直接概念,以及對數據的處理準確性有疑問

數據量大

樣本數據達到5萬左右,涉及的關聯條件多,導致數據追蹤困難.
處理的數據達80萬左右,數據清洗的規則複雜,不好監控

多算法

數據清洗的算法目前是3中分類,未來可能有更多的分類算法

總結

一定要有數據中間結果表,對數據的處理過程不僅能夠分析到而且必須能夠監測到處理過程中的結果數據,因爲客戶隨時都會要求覈對數據
性能的規劃,對應處理大數據量在sql性能方面的要求,索引,主鍵,分區,視圖都可以利用起來.
大數量的時候最好要分步驟去執行,這樣和過程結果表中數據呼應起來
大數據量的時候,能夠提前做的事情可以提前做好,能夠提前篩選和分析的數據可以提前分析,這樣可以減少同一時間資源的消耗,其實就是分時段去做.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Dolphinscheduler不重啓加載Oracle驅動

轉載自劉茫茫看山問題背景某天我們的租戶反饋數據庫連接缺少必要的驅動，我們通過日誌查看確實是缺少部分數據庫的驅動，因爲DolphinScheduler默認只帶了Oracle和MySQL的驅動，並且需要將pom文件中的test模式去掉纔可以

2024-05-28 21:22:10

記錄一次cnvd事件型證書漏洞挖掘

事件起因是因爲要搞畢設了，在爲這個苦惱，突然負責畢設的老師說得到cnvd下發的證書結合你的漏洞挖掘的過程是可以當成畢設的，當時又學習了一段時間的web滲透方面的知識，於是踏上了廢寢忘食的cnvd證書漏洞挖掘的日子。前言：聽羣友們說，一般可

2024-05-28 11:16:19

構建強韌：愛奇藝VRS系統可用性建設實踐

導語：愛奇藝作爲網絡視頻播放平臺，其核心服務是播放用戶選擇的視頻內容。VRS（Video Relay Service）是公司所有平臺播放功能的入口服務，它的主要功能包括播放策略控制（播控）、碼流選擇和下發視頻文件地址等。VRS

2024-05-28 02:22:00

spring源碼閱讀之bean加載過程(一)

如果想要閱讀源碼,首先要選擇版本,然後將源代碼下載到本地,導入idea中,話不多說,直接看步驟吧這裏我選擇5版本, 下載源碼默認是main分支,看想學習的分支,比如我切換到5版本,截圖如下: 2.安裝gradle 3

2024-05-27 23:55:57

今天！通義靈碼在北京、成都、杭州三城開講啦

通義靈碼自從入職阿里雲以來備受行業關注。5 月 24 日，阿里雲工程師奔赴北京、成都、杭州三城，向企業和開發者介紹並演示通義靈碼，通義靈碼依然是大家話題的C位，並收穫了衆多粉絲。 @杭州阿里雲金融創新峯會今天，2024 阿里雲金融創新峯

2024-05-27 21:13:46

關於在SpringBoot3.2中使用grpc插件生成*ServiceGrpc.java報錯找不到符號的一種解決方案

今天想在Springboot多模塊項目中讓兩個子模塊通過rpc交互，引入了grpc相關依賴，加好了插件，編譯生成了代碼，結果生成的*ServiceGrpc.java就報錯“”找不到符號”了，一看是找不到這個註解： @javax.annot

2024-05-27 13:48:34

聊聊Spring中的數據綁定 --- WebDataBinder、ServletRequestDataBinder、WebBindingInitializer 文章源於Ai生成

每篇一句大魔王張怡寧：女兒，這堆金牌你拿去玩吧，但我的銀牌不能給你玩。你要想玩銀牌就去找你王浩叔叔吧，他那銀牌多前言爲了講述好Spring MVC最爲複雜的數據綁定這塊，我前面可謂是做足了功課，對此部分知識此處給小夥伴留一個學

2024-05-27 10:53:57

hadoop-2單節點和hive安裝

1、下載hadoop-x.y.x.tar.gz 2、解壓：tar -zxvf hadoop-2.y.x.tar.gz 3、配置環境變量：$JAVA_HOME、$HADOOP_HOME、$PATH 4、修改配置：$HADOOP_HOME/et

2024-05-24 23:51:33

對話阿里云云原生產品負責人李國強：推進可觀測產品與OpenTelemetry開源生態全面融合

5 月 22 日，在最新一期的飛天發佈時刻上，阿里雲宣佈多款可觀測產品全面升級，其中一項是應用實時監控服務 ARMS 在業內率先推進了與 OpenTelemetry 開源生態的全面融合，極大豐富了可觀測的數據類型及規模，大幅增強了 ARMS

2024-05-24 21:13:50

複雜SQL治理實踐

一、前言軟件在持續的開發和維護過程中，會不斷添加新功能和修復舊的缺陷，這往往伴隨着代碼的快速增長和複雜性的提升。若代碼庫沒有得到良好的管理和重構，就可能積累大量的技術債務，包括不一致的設計、冗餘代碼、過時的庫和框架以及不再使用的功能。

京東雲開發者

2024-05-24 11:56:56

昔日輝煌不再，PHP老矣，尚能飯否？

導語 | 近期 TIOBE 最新指數顯示，PHP 的流行度降至了歷史最低，排在第 17 名，同時，在年度 Stack Overflow 開發者調查報告中，PHP 在開發者中的受歡迎程度已經從之前的約 30% 萎縮至現在的 18%。“P

2024-05-23 23:48:42

Spring項目中使用NIO並行調用http接口指南

1-背景後臺BFF層服務爲了SEO，涉及大量對底層數據的聚合，如果按照過程化編程，串行執行請求數據再聚合會造成很高的延遲，因此我們往往大量使用多線程技術並行化多個查詢，來減少單個請求的響應時間。多線程一定程度上也能達成通過並行化提升

2024-05-23 11:10:25

Java實現抓取在線視頻並提取視頻語音爲文本

一、背景最近在做大模型相關的項目，其中有個模塊需要提取在線視頻語音爲文本並輸出給用戶。作爲一個純後端Jave工程師，搞這個確實是初次嘗試。二、調研基於上述功能模塊，主要有三大任務：1、提取網頁中的視頻 2、視頻轉語音 3、語

2024-05-22 11:56:46

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

1-前言本文根據實際遇到的線程池使用導致的性能問題，從代碼層面解析線程池核心線程數、最大線程數、工作隊列三個參數配置不佳容易產生的問題，以及對這些問題的建議對線程池的更多解析，這篇文章講得已經比較詳細了，建議大家仔細研讀：《阿里規

2024-05-21 23:11:06

IO密集型場景CompletableFuture使用的陷阱

1-概述 1.1 背景企知道後臺服務存在大量的查詢可以併發，大量用到了java8的CompletableFuture特性，但是在性能測試中，遇到了併發的瓶頸。經過分析，發現是由於CompletableFuture默認線程池以及公共線

2024-05-21 23:11:05

24小時熱門文章

最新文章

最新評論文章