原创 HOME CREDIT DEFAULT RISK COMPETITION

https://www.kaggle.com/c/home-credit-default-risk 1.數據介紹 數據由Home Credit提供,該服務致力於向無銀行賬戶的人羣提供信貸(貸款)。預測客戶是否償還貸款或遇到困難是一

原创 lightgbm

XGBoost的缺點 每次迭代訓練時需要讀取整個數據集,耗時耗內存; 使用Basic Exact Greedy Algorithm計算最佳分裂節點時需要預先將特徵的取值進行排序,排序之後爲了保存排序的結果,費時又費內存; 計算分裂節

原创 排序算法

文章目錄1. 冒泡排序2. 選擇排序3. 插入排序4. 希爾排序5. 歸併排序6. 快速排序7. 堆排序8. 基數排序 1. 冒泡排序 # coding=utf-8 '''冒泡排序 排序過程: 沉澱法(比大,大的下沉):(vi

原创 二叉樹

基本數據結構 typedef struct BiNode{ char data; struct BiNode *lchild ,*rchild; }BiNode,*BiTree; 二叉樹的創建 //按照先序序列輸入構建一棵二叉樹 vo

原创 站外ctr綜述

點擊率預估 點擊率定義 CTR(Click-Through Rate)即點擊通過率,是互聯網廣告常用的術語,指網絡廣告的點擊到達率,可以通過(廣告的實際點擊次數/廣告的展現量)計算得到,是衡量互聯網廣告的一項重要指標。 點擊率預估模型

原创 Spark總結

RDD(Resilient Distributed Datasets,彈性分佈式數據集),是Spark最爲核心的概念。 RDD的特點: 是一個分區的只讀記錄的集合; 一個具有容錯機制的特殊集; 只能通過在穩定的存儲器或其他RDD上的

原创 sdf

# HOME CREDIT DEFAULT RISK COMPETITION # Update 16/06/2018: import numpy as np import pandas as pd import gc import