原创 scala讀寫hbase和hive經驗彙總

使用注意點: 1、讀取hbase,設置prefixFilter過濾器時候,必須使用setStartRow(或者直接使用setRowPrefixFilter過濾器),否則每次scan會遍歷hbase全量數據,而不是hbase的分區數據。 2

原创 文本和圖像中的mask簡單說明

  -- 未完待續 --  

原创 python—dict使用總結和思考

在python中,dict和list是兩種常見數據類型,dict用於內容空間足夠、依據值快速檢索的場景,list用於內存空間有限、根據下標快速檢索的場景。 使用場景: List:類似於C中的array數組,數據存儲在一段連續內存空間中;根

原创 PR曲線和ROC曲線理解2---進階理解

前段時間寫了ROC曲線和PR曲線的思想,這次做一些延伸: PR曲線計算範圍:大於閥值的那些樣本計算得到。 而ROC曲線計算範圍:根據閥值點對全量樣本判斷,進而依據全量樣本計算。   1、什麼是BEP(best event point),怎

原创 python的接口和繼承

在代碼邏輯比較複雜時候,需要有一定的結構設計,這時就需要用到接口和類繼承。 python中使用abc模塊來實現接口,繼承是python語言層次實現。 一、abc模塊 1、抽象方法 abstractmethod 說明: 一旦在抽象基類中定義

原创 RBF核函數的性質

常用的是RBF(Radial Basis Function)核函數(也稱爲高斯核函數) 什麼是徑向基核函數:x到指定中心(原點)和指定一點(C_i)距離的函數形式。或者說是:某種沿徑向對稱的標量函數。 RBF函數形式如下: 或者 其中

原创 思考:A卡評分卡

有3種評分卡: A卡:申請評分卡,位於貸前,預測客戶帶來的違約風險,相當於用老客戶數據預測新客戶的模式(bb說)。 B卡:行爲評分卡,位於貸中,預測客戶開戶後違約欠款的風險,相當於對借貸期間的風險進行監控(bb說的)。 C卡:催收評分卡,

原创 梯度下降法和情侶感情的換位思考和圖例關係

昨天和家人聊天,突然想到隨機梯度性下降法的思想和男女感情的契合親密發展程度有異曲同工之妙。下面的描述只是筆者的思考,不足之處,請大家指出。 一、隨機梯度下降法 對一批樣本進行多次迭代,每次迭代時候,通過反向傳播各個樣本的誤差更新各個特徵的

原创 自己的一點思考:數無形時少直覺,亂用指標亂評估(未完待續)

今天來談談一個話題:模型性能如何評估? 對於這個問題,相信不少數據挖掘的朋友會說這還用思考嗎?一頓啪哩啪啦:分類用precision、recall、F1、KS等等,迴歸用MSE等等,聚類用總體誤差平方和、輪廓係數silhouette等等。

原创 遺傳算法-回顧和思考

說來奇怪,自己在讀書期間身邊有很多人做遺傳算法的工作,但由於自己做的網絡設計,就一直沒有主動研究,最近一段時間,偶然間突然對遺傳算法感興趣,發現遺傳算法還是有很大的發揮空間,在此記錄下學習過程~ 一、什麼是遺傳算法 遺傳算法是一種模仿自然

原创 模型訓練和模型擬合的幾點理解

模型訓練和模型擬合的幾點理解,歡迎大牛指點~ 對於我們日常工作,拿到一個挖掘項目,一般都是先走一遍標準化的數據流程,效果好大家歡喜,效果不好各種調參。 這裏有幾點想說: (1)在開始挖掘項目之前,是否有評估挖掘項目的可行性? (2)挖掘項

原创 PCA的個人理解

接觸PCA很久很久,PCA可以說是每個機器學習愛好者的都會很快接觸到的降維算法,經過這幾年對PCA有了更深入的理解~ PCA是什麼? 英文名稱:principal components analysis,顧名思義,用於分析數據中的主要成分

原创 python和Microsoft Visual C++ Build Tools版本安裝

在windows環境下,python需要調用Microsoft Visual C++ compiler編譯器,尤其是在安裝第三方包時候,會build項目,這時如果沒有安裝或者安裝不協調的c++構建工具就會報錯。 (截圖來源:https:

原创 FM的理解

本來想寫一些Factor Machine(FM)的理解,百度了下,發現有些帖子介紹的很詳細,所以只做一些總結。 1、FM可以說是LR的特徵組合的升級版本,LR只考慮了單個特徵的重要性,而FM考慮了兩兩特徵之間的重要性。 2、FM一般用於數

原创 python多進程的一些心得體會

python的multiprocessing庫博大精深,有很多細節記錄下: 1、使用定義Process子類的方法,無法使用pool列表將其包含進來二次引用進行全局控制。 2、使用Process指定target的方法可以使用pool列表將多