台部落落花生@u

文章以MYSQL存儲過程批量添加、刪除數據表字段爲例，展現了MYSQL存儲過程在數據分析中快速對大批量數據進行重複性操作的能力，大幅度提升數據表處理效率。創建數據庫及數據表先在數據庫系統下建立數據庫和數據表。爲後面的事

2020-06-16 10:00:14

excel的控表插件、可視化圖表等功能可製作一些更炫酷的動態可視化圖表，讓數據向需求方更直觀的呈現出要表達的信息。下面通過一個小案例來介紹：下圖是一個隨機生成的不同國家多年連續的銷量數據，怎樣有選擇的動態展示各國隨時間而變

2020-06-16 10:00:14

關於Logistic迴歸，在《【R】基於Logistic迴歸的初始信用評級》做過粗略的介紹，看此文時可結合該文章，幫助理解。這裏借鑑李航老師的《統計學習方法》再補充一下。 1 logistic分佈在統計學中，研

2020-06-16 10:00:13

Spark的專門數據結構是RDD，即分佈式數據集的抽象，spark引擎的底層抽象，spark生態系統中其他組件的實現基礎，但是，他無元信息，使得rdd程序不易理解，不優雅，需要自己優化程序。爲了減少優化程序帶來的勞動力，這

2020-06-16 10:00:13

聚類屬於無監督分類算法。用得較多的有基於距離的聚類——K-Means，基於密度的聚類——DBSCAN。可以用作數據降維、數據離散壓縮、客戶分羣等用途,這裏直接進入主題： K-Means 1 K-Means描述⾸先

2020-06-16 10:00:13

Python的Random就是用來“隨機”的，隨機產生或返回一個數、一個序列或者一個數組。下面介紹該模塊下的函數及功能，以及用它來做一個二維碼制導器。關於Random模塊的下屬函數及功能隨機小數 1.

2020-06-16 10:00:13

小落用的是pyspark,利用jupyter來編寫提交spark job。下面直接用代碼介紹：在此之前要已經搭建並啓動hdfs+spark+jupyter 啓動spark api from pyspark.sql imp

2020-06-16 10:00:13

如君願，開門見山，直入主題吧！ 1 t檢驗 1.1 單樣本t檢驗對總體均值的假設檢驗單樣本 t 檢驗是最基礎的假設檢驗，利用來自總體的樣本數據，推斷總體均值於假設的檢驗值之間是否存在顯著差異，是對總體均值的假設

2020-06-16 10:00:13

你要的其實就在這裏…… ** python 源碼鏈接** https://nbviewer.jupyter.org/github/lda188/my-data/blob/master

2020-06-16 10:00:13

表結構數據的介紹對錶結構數據的理解越清晰，對錶結構數據進行處理的工具的使用就越得心應手。比如用MYSQL、SQL sever 等軟件對“大”數據進行清洗等，都會有極大的幫助！下面是落花生對錶結構數據的認識：何爲表結構數據？它

2020-06-16 10:00:13

集成算法最強的目的就是考慮多個評估器的建模結果，彙總之後得到一個綜合的結果，以此來獲取比單個模型更好的迴歸或分類表現。多個模型集成成爲的模型叫做集成評估器（ensembleestimatorensemble estimat

2020-06-16 10:00:13

1 關於GridStudio Grid studio是一個基於Web的電子表格應用程序，完全集成了Python編程語言。它旨在提供一個集成的工作流程，用於加載，清理，操作和可視化數據。這是通過用Go編寫的電子表格後端實現

2020-06-16 10:00:13

項目背景隨着互聯的發展，數據資源越來越豐富，數據量級也越來越大，於車企而言，這也是機遇、趨勢。如果把數據資源比作"數據礦"，那麼便需要"數據礦工" 把利用工具將數據礦開採分揀出來。當然，這裏的”數據礦工“只是小編對從事數據

2020-06-16 10:00:13

決策樹是一種樹結構，可用於分類和迴歸，屬於有監督無參數學習方法。基於信息學理論中熵的概念，決策樹的經典算法有ID3、C4.5、Cart等算法。這裏只記錄算法原理，其他的不會贅述。基本公式名稱公式基尼係

2020-06-16 10:00:13

Power Query 最重要的就是M函數編寫，M函數是Power Query的函數語法，可以幫助我們靈活地完成數據導入、整合、加工處理等數據處理工作。M函數佔據了Query數據處理能力的80%，界面操作僅僅佔20%。數據類

2020-06-16 10:00:13