原创 【MYSQL】存儲過程在批量處理數據表中的應用

  文章以MYSQL存儲過程批量添加、刪除數據表字段爲例,展現了MYSQL存儲過程在數據分析中快速對大批量數據進行重複性操作的能力,大幅度提升數據表處理效率。 創建數據庫及數據表   先在數據庫系統下建立數據庫和數據表。爲後面的事

原创 【EXCEL】在數據分析中的使用三

    excel的控表插件、可視化圖表等功能可製作一些更炫酷的動態可視化圖表,讓數據向需求方更直觀的呈現出要表達的信息。下面通過一個小案例來介紹:下圖是一個隨機生成的不同國家多年連續的銷量數據,怎樣有選擇的動態展示各國隨時間而變

原创 【算法2】Logistic迴歸

    關於Logistic迴歸,在《【R】基於Logistic迴歸的初始信用評級》做過粗略的介紹,看此文時可結合該文章,幫助理解。這裏借鑑李航老師的《統計學習方法》 再補充一下。 1 logistic分佈     在統計學中,研

原创 【Spark】DataFrame

    Spark的專門數據結構是RDD,即分佈式數據集的抽象,spark引擎的底層抽象,spark生態系統中其他組件的實現基礎,但是,他無元信息,使得rdd程序不易理解,不優雅,需要自己優化程序。爲了減少優化程序帶來的勞動力,這

原创 【算法6】K-Means聚類

    聚類屬於無監督分類算法。用得較多的有基於距離的聚類——K-Means,基於密度的聚類——DBSCAN。可以用作數據降維、數據離散壓縮、客戶分羣等用途,這裏直接進入主題: K-Means 1 K-Means描述     ⾸先

原创 【Python】Random模塊——驗證碼制導器

    Python的Random就是用來“隨機”的,隨機產生或返回一個數、一個序列或者一個數組。下面介紹該模塊下的函數及功能,以及用它來做一個二維碼制導器。 關於Random模塊的下屬函數及功能 隨機小數      1.

原创 【Spark】RDD

    小落用的是pyspark,利用jupyter來編寫提交spark job。下面直接用代碼介紹: 在此之前要已經搭建並啓動hdfs+spark+jupyter 啓動spark api from pyspark.sql imp

原创 【R】快速實現統計推斷

    如君願,開門見山,直入主題吧! 1 t檢驗 1.1 單樣本t檢驗 對總體均值的假設檢驗     單樣本 t 檢驗是最基礎的假設檢驗,利用來自總體的樣本數據,推斷總體均值於假設的檢驗值之間是否存在顯著差異,是對總體均值的假設

原创 【小程序鏈接】***想要的 都不在這裏***

               你要的 其實就在這裏…… ** python 源碼鏈接** https://nbviewer.jupyter.org/github/lda188/my-data/blob/master

原创 表結構數據介紹

表結構數據的介紹 對錶結構數據的理解越清晰,對錶結構數據進行處理的工具的使用就越得心應手。比如用MYSQL、SQL sever 等軟件對“大”數據進行清洗等,都會有極大的幫助!下面是落花生對錶結構數據的認識: 何爲表結構數據? 它

原创 【算法7】集成算法

    集成算法最強的目的就是考慮多個評估器的建模結果,彙總之後得到一個綜合的結果,以此來獲取比單個模型更好的迴歸或分類表現。多個模型集成成爲的模型叫做集成評估器(ensembleestimatorensemble estimat

原创 【GridStudio】 從0到1 [搭建+啓動] 神級編輯器GridStudio

1 關於GridStudio     Grid studio是一個基於Web的電子表格應用程序,完全集成了Python編程語言。它旨在提供一個集成的工作流程,用於加載,清理,操作和可視化數據。 這是通過用Go編寫的電子表格後端實現

原创 【Power BI desktop 】在汽車行業的運用——車企決策儀

項目背景   隨着互聯的發展,數據資源越來越豐富,數據量級也越來越大,於車企而言,這也是機遇、趨勢。如果把數據資源比作"數據礦",那麼便需要"數據礦工" 把利用工具將數據礦開採分揀出來。 當然,這裏的”數據礦工“只是小編對從事數據

原创 【算法4】決策樹

    決策樹是一種樹結構,可用於分類和迴歸,屬於有監督無參數學習方法。基於信息學理論中熵的概念,決策樹的經典算法有ID3、C4.5、Cart等算法。這裏只記錄算法原理,其他的不會贅述。 基本公式 名稱 公式 基尼係

原创 【Power BI】精要 之 Power Query

  Power Query 最重要的就是M函數編寫,M函數是Power Query的函數語法,可以幫助我們靈活地完成數據導入、整合、加工處理等數據處理工作。M函數佔據了Query數據處理能力的80%,界面操作僅僅佔20%。 數據類