原创 回爐整理《數據分析實戰45講》之基礎篇 -- 13.數據變換(一)

(PS: 先跳過十二章,因爲那章講數據集成,這個後面再一起講,因爲要講的比較多。此外,下文若有錯誤,請指正,謝謝!😃) 這次是第十三章: 13 | 數據變換:考試成績要求正態分佈合理麼? 該章主要講數據變換的幾種方法中的數據規

原创 如何用sklearn工具包裏面的feature_selection模塊來進行特徵選擇/降維(一)

最近在進行一個比賽的時候遇到特徵處理的問題,於是就在sklearn官網查了一下,發現有專門的一節來講關於特徵選擇的,因此翻譯一下主要供自己學習使用,當然如果對你也有幫助,那更好。 sklearn.feature_selectio

原创 Leetcode題解之database(七)1179. Reformat Department Table

今天又隨手刷了一道力扣題,還是數據庫的。這次是 1179題:重寫部門表格。又是一道看似簡單的題,但不注意還是容易出錯😂。 此題主要考察的知識點👉:CASE WHEN/IF 函數的用法以及SQL分組聚合的方法。 解題思路👇: 仔細看

原创 Attribute Error :XGBRegressor object has no attribute XGBReressor的解決辦法

剛剛掌櫃在進行調參的時候遇到這樣的報錯: 這就奇怪了,明明剛剛Xgboost還能運行,怎麼調參就不行了??? 於是掌櫃去搜解決辦法,十個有九個都是說因爲存在有 xgboost.py命名的文件才導致的。但是掌櫃明明纔開始用這個,也沒

原创 調用sklearn模型遇到Unknown label type: continuous 的解決辦法

調用sklearn模型的時候 報錯“Unknown label type: ‘continuous’ “的解決辦法 剛剛掌櫃在進行模型預測的時候遇到這樣的報錯: 爲什麼會這樣呢?掌櫃搜過類似問題的解法,發現在StackOverf

原创 因爲一個MySQL權限問題引發的填坑之一(ERROR1045:Access Denied for user 'root'@'localhost' (using password:YES))

我覺得我應該改名字叫填坑掌櫃, 本來只是改個MySQL導入文件的權限問題,結果引發了一系列的踩坑,填坑過程… 好吧,還是開始正題,我們開始填坑第一個: ERROR1045(28000):Access Denied for user

原创 初次使用Lua編寫腳本的時候需要注意的幾個小地方

這幾天在學習Redis的時間順便也接觸了Lua這個腳本語言,感覺Lua語法還算簡單,但是初次接觸有幾個需要注意的地方,這裏打算記錄一下。 如果想在Windows10上面使用Lua編寫腳本,可以去這裏下相應的軟件包:LuaDist

原创 數據分析面試、筆試題彙總+解析(三)

接着昨天的面試題,今天解決五六七八題: 新建屬性列,提取日期中的月份 根據id和月份,做數據透視表;分別求出每個id在不同月份的消費筆數、消費總額 合併信息表和數據透視表;按id合併 數據脫敏,將文本信息匿名化 首先來解決第

原创 大衆點評前650家咖啡店的數據分析(二)分析篇

根據之前獲取的數據我們進行了如下分析。 先看單變量的人均消費(mean-price),通過describe統計,可以看出來是成都的整體咖啡店人均消費是45(以成都的工資來看有點貴): 於是掌櫃又直接可視化整體的人均消費,人均消

原创 由換jupyter notebook的主題引發的一部debug的連續劇(三)

上篇說到最後爆出bug。。。到後臺服務的連接沒能建立, 我們會繼續嘗試重連, 請檢出網絡連接… 接着發揮谷歌的優勢找到解決辦法。 就是把tornado降級爲4.5.3 pip install tornado==4.5.3 然後終

原创 TypeError: can't multiply sequence by non-int of type 'float'的解決辦法

這幾天在畫人均消費的可視化圖時總是遇到問題,報錯是: TypeError: can’t multiply sequence by non-int of type 'float’ 看字面意思很好理解,就是解析的時候遇到非整數的浮點數

原创 初次使用Python連接Redis報錯: 由於目標計算機積極拒絕,無法連接。的解決辦法

初次使用Python連接Redis的時候突然報錯如標題: 額。。。回頭又重看了一遍剛剛自己寫的代碼,沒有錯啊?怎麼就無法連接了??? 後來翻看一番谷歌,才發現一個尷尬的問題。。。上面👆報錯的原因是因爲Redis服務沒有啓動。。

原创 數據分析面試、筆試題彙總+解析(四)

今天解決最後一道題👉:把數據集隨機劃分爲訓練集和測試集,按8:2的比例。(本來應該週六就更新的,因爲臨時接了朋友一個自動下單程序的需求就耽擱了😂) 一般情況都會用傳統定比隨機劃分(掌櫃自己取得名字。。。也有人叫留出法?)法,即使用

原创 Leetcode題解之database(三)196. Delete Duplicate Emails

今天要解的題目是👉:196. Delete Duplicate Emails(刪除重複的郵件) 乍看之下會覺得是個很簡單的去重問題,但是請仔細注意題目的要求: 題目要求的是刪除重複的數據,並保留Id最小的郵箱數據!!!所以如果一

原创 大衆點評前650家咖啡店的數據分析(一)爬蟲篇

1. 本文就當時爬取的方法做解說,不代表現在大衆點評的情況,所以數據也只是當時爬取下來的數據,現在肯定也有變化! 2. 如果大衆點評現在更改反爬措施,請自行修改代碼,謝謝理解! 趁着疫情期間不能出門,於是掌櫃的就繼續在家捯飭代碼。