原创 2017年5月百度機器學習實習面經

古人云:不積跬步無以至千里,不積小流無以成江海。謹以此文爲開端,記錄我的學習過程。 面試持續1個小時,大致過程如下: 首先自我介紹,然後聊聊自己的項目,感覺百度統招的面試官更加關注細節,他們會詢問項目的細節,面試官會問

原创 sklearn GridSearchCV

前言:記錄常用工具,方便以後使用時可以隨時查看,也希望能夠幫到尋找這方面資料的人們。 sklearn中函數定義: sklearn.model_selection.GridSearchCV(estimator, param_gri

原创 凸優化

定義:拋開凸優化的種種理論和算法不談,純粹的看優化模型,凸優化需滿足一下三個條件: 1.在最小化(最大化)的要求下 2.目標函數是一個凸函數(凹函數) 3.約束條件所形成的可行域集合是一個凸集。 凸優化問題爲什麼這麼重要: 此處問

原创 《Python 金融大數據分析》記錄

本文記錄一些該書中出現的知識,方便需要使用的時候查詢。 隱含波動率 隱含波動率是在其他條件下不變的情況下,輸入公式不同期權行權價格和到期日測得的市場報價的那些波動率值。 這種情況下隱含波動率不是模型/公式的輸入參數,而是對該公式進行

原创 5月新浪微博算法實習面經

前言:運氣也是實力的一部分,非洲來的我如何才能搭載上去往歐洲的飛機..... 面試分了兩輪,時間長達2個多小時。 一面:面試官看過我的簡歷後,告知我簡歷內容偏少,我所做項目沒有能和他們部門匹配,希望我能夠儘可能的描述自己的能力

原创 Python 排序算法小結

排序就是整理數據的序列,使其中元素按照特定的順序排列的操作。排序可以使數據的存儲方式更具有結構性。排序算法是算法的入門知識,每種算法都有其使用的場合,死記硬背很難記憶,理清算法的本質更有助於我們記憶。 對於每種排序方法,我們需要明白,

原创 GBDT和Xgboost模型對比總結

一.GBDT有哪些參數,如何確定樹的深度,學習率怎樣確定。 答:本題答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中,GradientBoostingClass

原创 Python 踩坑記錄

1.浮點數判斷:工作中遇到類似下面邏輯判斷 i = 1 while i!= 1.5: i = i+0.1 print i 在想象中i應該停止在1.5就不輸出了,但是實際的輸出結果是無限循環。 這是因爲在計算機的邏輯中,浮點

原创 代價敏感學習

代價敏感的學習方法是機器學習領域中的一種新方法,它主要考慮在分類中,當不同的分類錯誤會導致不同的懲罰力度時如何訓練分類器。例如在醫療中,“將病人誤診爲健康人的代價”與“將健康人誤診爲病人的代價”不同;在金融信用卡盜用檢測中,“將盜用誤認爲

原创 SMOTE原理及實現

Smote算法原理: python2.7 算法實現: 原算法只能針對N採樣率小於100%或者N爲100%整數的參數進行採樣。我實現的代碼可對任意N>0的採樣率從進行SMOTE。詳情見源碼 #!/usr/bin/env python2

原创 機器學習的前世今生:一部氣勢恢宏的人工智能發展史

本文轉載自:http://www.iheima.com/zixun/2016/0911/158681.shtml?utm_source=tuicool&utm_medium=referral 機器學習的發展是整個人工智能發展史上頗爲重要的

原创 Python 惰性計算

惰性計算(Lazy evaluation),是指僅僅在真正需要執行的時候才計算表達式的值。充分利用其特性可以帶來很多便利。 避免不必要的計算,帶來性能的提升。 對於Python中的條件表達式 if x and y,在x爲false的情

原创 優化sql語句的策略

本文是對近期sql學習的整理感悟。 1.對查詢進行優化,應儘量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應儘量避免在 where 子句中使用!=或<>操作符,否則將引擎放棄使用索引而進行全

原创 互聯網金融業申請評分卡

評分卡模型由以下幾類: 反欺詐評分卡、申請評分卡,行爲評分卡、催收評分卡 申請評分卡是指針對一個新用戶申請信用卡或者初次借款時的評分卡模型。 特性: 穩定性:當總體逾期/違約概率不變時,分數的分佈也應不變。 區分行:違約人羣與正

原创 異常值檢測算法

閒話:最近總是特別嗜睡,不知爲何牀對我的引力總是讓我死死的賴在上面,大概是懶癌又犯了....要改。 異常值分析是檢驗數據是否有錄入錯誤以及含有不合常理的數據的過程,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算