原创 通過實戰來了解Mybatis

        在我們最開始做開發的時候,基本上都是用JDBC來與數據庫進行連接,這種方法相對而言比較繁瑣。但是,自從Mybatis 是問世以後,讓我們與數據庫之間的連接更加方便快捷,我們現在通過簡單的實戰來了解mybatis是如何與數據

原创 servlet對象返回json數據

          任務:通過調取我提供的接口,返回一個json格式的數據。本實驗是在myeclipse這個平臺上運行,並且對返回的json進行在線校驗。 response.setCharacterEncoding("UTF-8");

原创 Pycharm的基本配置

一.字體大小的配置 1).打開pycharm軟件,在通過File->Settings,點擊Settings即可找到需要配置的頁面。 2).進如配置頁面,我們現在可以依據自己的需求配置相對應的選項,接下來我們配置字體的大小(大多數人都不喜

原创 怎麼清除spyder之前程序運行的變量

     在使用spyder運行python代碼的時候,如果不清除之前的變量,再次運行該變量的時候,程序有時會在該變量的基礎上繼續運行,導致我們會對結果的誤判; 案例如下:      step1:運行d3的時候,結果如下;      

原创 IV值的計算邏輯

       在建模的時候,我們對會單個變量的預測能力進行預測,主要使用IV值這個指標,IV值的預測能力如下:            IV<=0.02 : 無預測能力;           0.02 - 0.1 :弱預測能力;      

原创 [Python]網絡爬蟲(二):利用urllib2通過指定的URL抓取網頁內容

版本號:Python2.7.5,Python3改動較大,各位另尋教程。 所謂網頁抓取,就是把URL地址中指定的網絡資源從網絡流中讀取出來,保存到本地。  類似於使用程序模擬IE瀏覽器的功能,把URL作爲HTTP請求的內容發送到服務器端

原创 [Python]網絡爬蟲(三):異常的處理和HTTP狀態碼的分類

先來說一說HTTP的異常處理問題。 當urlopen不能夠處理一個response時,產生urlError。 不過通常的Python APIs異常如ValueError,TypeError等也會同時產生。 HTTPError是urlEr

原创 隨機森立預測風險

在本文中,我將向大家介紹如何使用Apache Spark的Spark.ml庫中的隨機森林算法來對銀行信用貸款的風險做分類預測。Spark的spark.ml庫基於DataFrame,它提供了大量的接口,幫助用戶創建和調優機器學習工作流。結

原创 銀行風控案例-python學習筆記

前言: 風險控制是挖掘中最爲常見的應用,屬於監督學習的“分類器”使用案例。我們通過以往歷史數據判斷用戶違約的概率。本文使用了Logistic Regression 方法完成案例。 注: 根據CDA課程自己總結的學習筆記。使用的是i

原创 邏輯迴歸應用之Kaggle泰坦尼克之災

1.引言 先說一句,年末雙十一什麼的一來,真是非(mang)常(cheng)歡(gou)樂(le)!然後push自己抽出時間來寫這篇blog的原因也非常簡單: 寫完前兩篇邏輯迴歸的介紹和各個角度理解之後,我們討論羣(戳我入羣)的

原创 8個提高機器學習模型的準確率的方法

模型的開發週期有多個不同的階段,從數據收集開始直到模型建立。 不過,在通過探索數據來理解(變量的)關係之前,建議進行假設生成(hypothesis generation)步驟(如果想了解更多有關假設生成的內容,推薦閱讀(why-and

原创 [Python]網絡爬蟲(12):爬蟲框架Scrapy的第一個爬蟲示例入門教程

(建議大家多看看官網教程:教程地址) 我們使用dmoz.org這個網站來作爲小抓抓一展身手的對象。 首先先要回答一個問題。 問:把網站裝進爬蟲裏,總共分幾步? 答案很簡單,四步: 新建項目 (Project):新

原创 [Java] 知乎下巴第5集:使用HttpClient工具包和寬度爬蟲

下載地址:https://code.csdn.net/wxg694175346/zhihudown 說到爬蟲,使用Java本身自帶的URLConnection可以實現一些基本的抓取頁面的功能,但是對於一些比較高級的功能,比如重

原创 [Java]知乎下巴第3集:來人啊快把知乎的答案裝到籃子裏去

上次我們已經能把知乎的問題抓出來了,但是答案還木有抓出來。 這一回合,我們就連着把答案也一起從網站中摳出來=。= 前期我們抓取標題是在該鏈接下: http://www.zhihu.com/explore/recommenda

原创 決策樹分類和預測算法的原理及實現

作者:藍鯨 算法決策樹是一種通過對歷史數據進行測算實現對新數據進行分類和預測的算法。簡單來說決策樹算法就是通過對已有明確結果的歷史數據進行分析,尋找數據中的特徵。並以此爲依據對新產生的數據結果進行預測。 決策樹由3個主要部分組成,分