原创 XGBoost、LightGBM的詳細對比介紹

sklearn集成方法集成方法的目的是結合一些基於某些算法訓練得到的基學習器來改進其泛化能力和魯棒性(相對單個的基學習器而言)主流的兩種做法分別是:bagging基本思想獨立的訓練一些基學習器(一般傾向於強大而複雜的模型比如完全生長的決策

原创 評價分類器性能指標之AUC、ROC

前言曾經面試的時候被問到過這麼一個問題,怎麼向一個沒有任何計算機、數學、統計等基礎的人介紹下什麼是AUC,當時我敗北了。不過後來我有一天頓悟了,爲了檢驗我的頓悟是否有效,特此一答。我給出的答案是 AUC是指 隨機給定一個正樣本和一個負樣本

原创 大數據&算法工程師知識點大全

下面內容爲自己找工作的過程中,自己整理的知識點以及從別人面經中整理的知識點大全,對其中的大部分問題,我都會給出我認爲最優答案的csdn鏈接(ps:本篇博客正在整理過程中,會不定期更新一些新的知識點的答案,希望可以幫到更多的同學! 最新更新

原创 LRU算法 + Java實現代碼

LRU原理 LRU(Least recently used,最近最少使用)算法根據數據的歷史訪問記錄來進行淘汰數據,其核心思想是“如果數據最近被訪問過,那麼將來被訪問的機率也更高”。 最常見的實現是使用一個鏈表保存緩存數據,詳細算法實現如

原创 大數據&算法工程師知識點大全(正在更新...)

下面內容爲自己找工作的過程中,自己整理的知識點以及從別人面經中整理的知識點大全,對其中的大部分問題,我都會給出我認爲最優答案的csdn鏈接(ps:本篇博客正在整理過程中,會不定期更新一些新的知識點的答案,希望可以幫到更多的同學! 最新更新

原创 深度學習入門

零基礎入門深度學習(1) - 感知器 零基礎入門深度學習(2) - 線性單元和梯度下降 零基礎入門深度學習(3) - 神經網絡和反向傳播算法 零基礎入門深度學習(4) - 卷積神經網絡 零基礎入門深度學習(5) - 循環神經網絡 零基礎入

原创 協方差與相關係數 numpy中cov與corrcoef的使用

協方差與相關係數協方差與相關係數協方差相關係數1.協方差如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值時另外一個也大於自身的期望值,那麼兩個變量之間的協方差就是正值;如果兩個變量的變化趨勢相反,即其中一個變量大於自身的期

原创 iOIVZpbFMR

博客搬家!

原创 怎麼解決數據傾斜問題?

本文面向的讀者是從事數據分析、數據處理(ETL)等相關工作的朋友們,相信大家在工作中一定遇到過數據傾斜的問題,讀完本文,你會瞭解到數據傾斜的定義及其危害、產生的原因及應對措施、常見傾斜場景及解決辦法等知識,相信對你今後處理數據傾斜問題會

原创 推薦系統系列三:推薦系統冷啓動

               下面內容轉自大數據與人工智能微信公衆號,由於網絡上推薦系統的相關學習資料太多太雜,東拼西湊學習很難摸出門道,同時我也在學習推薦系統,因此我將該系列內容摘錄到我的博客,方便大家直接在博客中查看,大家一起學習進步

原创 推薦系統系列二:推薦系統的工程實現

       下面內容轉自大數據與人工智能微信公衆號,由於網絡上推薦系統的相關學習資料太多太雜,東拼西湊學習很難摸出門道,同時我也在學習推薦系統,因此我將該系列內容摘錄到我的博客,方便大家直接在博客中查看,大家一起學習進步,後面我也會閱讀

原创 如何優雅的在 Microsoft word中插入代碼

近日需要寫一些包含代碼的Word文檔,直接複製代碼進去並不優雅,於是從網上發現了這個小工具,和大家分享一下。 一、工具 http://www.planetb.ca/syntax-highlight-word 二:操作步驟: 第一步:打開上

原创 推薦系統系列一:推薦系統介紹

       下面內容轉自大數據與人工智能微信公衆號,由於網絡上推薦系統的相關學習資料太多太雜,東拼西湊學習很難摸出門道,同時我也在學習推薦系統,因此我將該系列內容摘錄到我的博客,方便大家直接在博客中查看,大家一起學習進步,後面我也會閱讀