原创 【數據分析與挖掘實戰】數據探索篇

數據探索1.數據質量分析1.1缺失值分析1.2異常值分析1.3一致性分析2.數據特徵分析2.1分佈分析2.2對比分析2.3統計量分析2.4週期性分析2.5貢獻度分析2.6相關性分析3.數據探索主要工具 1.數據質量分析 在做數據

原创 【Excel】取消隱藏沒反應

Excel的行取消隱藏沒反應,原因可能是因爲有篩選,按Crlt+Shift+L取消篩選即可。

原创 【拼多多】數據分析筆試+三面面經

今年投的是拼多多的學霸批,然後走完了整個流程,包括筆試+三次面試,現在在等最終結果。 【筆試】 筆試主要考察SQL,包括留存率問題;多表查詢,join,排名函數等考點之類的。 【一面】 一面面試官,聊了一個小時,電話面試,感覺面試

原创 詳解Python3 pandas.merge用法

pandas提供了一組高級的、靈活的、高效的核心函數,能夠輕鬆的將數據規整化。這節主要對pandas合併數據集的merge函數進行詳解,感興趣的朋友跟隨小編一起看看吧 摘要 數據分析與建模的時候大部分時間在數據準備

原创 Python3顯示當前時間、計算時間差及時間加減法示例代碼

這篇文章主要給大家介紹了關於Python3顯示當前時間、計算時間差及時間加減法的相關資料,文中通過示例代碼介紹的非常詳細,對大家學習或者使用Python3具有一定的參考學習價值,需要的朋友們下面來一起學習學習吧 摘

原创 【英語流利說】數據分析師筆試+二面經驗

作爲秋招得第二個offer,並且薪資完全出乎我的意料,因此寫下英語流利說得筆試面試,供來着參考: 【筆試】 筆試主要分爲填空題和問答題,其中填空題主要考一些概率題、SQL、假設檢驗、機器學習基礎;問答題有兩題,第一題是SQL,第二

原创 【貝殼】數據分析崗位筆試+四面面經

貝殼是今年秋招得第一個offer,因此回饋網友,記錄一下貝殼得筆試+四面: 【筆試】 筆試是去公司現場面之前,給的一套題目,包括一下幾題: 1.找出數據中的錯誤數據,並給出理由 2.貝殼如果去新的城市擴張,需要看哪些指標 3.聚類

原创 【Python爬蟲】爬取企業專利信息

本來是個美好的週末的,但是週五晚上領導給了一個公司名稱的Excel,讓把這些公司的專利信息爬取下來。本文記錄了爬取企業專利信息的心酸過程。碼字不易,喜歡請點贊!!! 一、找尋目標網頁 在接到這個任務之後,我的內心是拒絕的。但是又

原创 【機器學習】十三、一文看懂Bagging和隨機森林算法原理

集成學習主要包括Boosting和Bagging兩大類,本文主要分享第二類Bagging類集成學習,會講解Bagging的原理,以及在Bagging基礎上改進之後的隨機森林(Random Forest,簡稱RF)算法。碼字不易,喜

原创 【機器學習】十二、一文看懂支持向量機原理

說明:本文是一篇學習筆記,在看完很多大佬對SVM的講解之後,自己Copy和整理的,僅供學習使用,碼字不易,喜歡請點贊!!! 一、SVM簡介 支持向量機,英文名Support Vector Machine,因此簡稱SVM。SVM是

原创 【HQL】Hive SQL查詢使用中文別名

使用反單引號–Tab鍵上面的鍵即可,eg: select max(company_times) as `公司申請次數` from tableA

原创 【機器學習】九、決策樹從ID3到C4.5的原理和實踐

一文詳解,決策樹從ID3算法到C4.5算法背後原理。碼字不易,喜歡請點贊,謝謝!!! 一、前言 決策樹算法作爲數據挖掘十大經典算法之一,其實已經在日常編程中,被我們使用到了。比如,我們平時寫代碼的判斷語句if−elseif-el

原创 【機器學習】十一、學習向量量化算法原理

一文詳解,原型聚類只學習向量量化算法背後原理。碼字不易,喜歡請點贊,謝謝!!! 一、學習向量量化簡介 前面的文章中,介紹過k-means和層次聚類這兩種聚類方法,今天介紹一種新的聚類算法,即學習向量量化(Learning Vec

原创 【機器學習】十、分類和迴歸樹CART原理

一文詳解,分類和迴歸樹算法背後原理。碼字不易,喜歡請點贊,謝謝!!! 一、前言 分類和迴歸樹(Classification And Regression Trees),簡稱CART,是1984年提出來的既可用於分類,又可用於迴歸

原创 A/B test流程

確立優化目標 首先要做的,就是確立想要優化的“目標”。在這個過程中,我們建議大家一定要設立“可量化的、可以落實到某一個具體功能點的、可實施的小目標”。舉例來說,如果一個目標不好直接量化,例如“將用戶滿意度提升15%”,那麼就不好