原创 決策樹、裝袋、提升和隨機森林

決策樹是一種簡單、常用的基礎模型。之所以說它簡單,不僅因爲它的思想原理簡單具體、貼近實際,它並不需要像線性迴歸模型一樣用一個數學公式來表徵,而是由規則來抽象。說它基礎,是因爲它是一系列複雜強大的模型的基礎。 決策樹的基本思想是通過將數據

原创 sqoop在MySQL和hive間導數遇見的幾種問題

無論是新版本,還是老版本,遇到的問題大部分都是相同的。下面解決問題的方法僅供借鑑 1.拒絕連接的錯誤表現是什麼? 2.表不存在該如何解決? 3.null字段填充符該如何指定? 最近利用sqoop在MySQL和hive間相互導數時遇見如下幾

原创 Git的介紹、安裝和使用

關於git的介紹和使用,我目前見過的最全面仔細的文章: https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000/0013743

原创 網頁版RStudio

RStudio是R語言開發中的利器,是一個IDE集成環境。RStudio Server版本提供了web的功能,可以安裝遠程計算機,通過web進行訪問,支持多用戶。親測好用。 使用瀏覽器運行R的好處: 你可以從任何一臺能上網的計算機去

原创 將mysql中時間類型的字段導入hive中遇到的坑(時間錯啦)

一、問題發現與分析 問題: 用公司的大數據平臺(DataX)導數,已經開發上線一個多月的一批報表,突然有同事說有個報表數據不準。出在時間字段上。 分析: 1、先看了原數據MySQL字段類型爲datetime,目標字段爲timest

原创 Hive基礎sql語法

1.DDL 操作 1.建表 2.3.創建簡單表 4.創建外部表 5.建分區表 6.建Bucket表 7.創建表並創建索引字段ds 8.複製一個空表 9.顯示所有表 10.按正條件正則表達式顯示錶 11.修改表結構 12.表添加一列

原创 數據庫間數據遷移常見工具和方法

項目需要對oracle數據遷移到MySQL中,蒐集了一些方法和工具,現在做一個彙總和總結,較好的有以下幾種: 1、SQLyog(https://link.zhihu.com/?target=https%3A//www.webyog.com

原创 在數據庫處理中數字與字符串之間比較的坑(hive VS mysql )

數字與字符串之間比較的坑(hive&mysql )背景MySQLhive 背景 在工作中遇到了同樣的SQL在hive和MySQL執行後所得總數對不上,但是抽樣執行都是一致的。最後發現問題出在hive和MySQL在數字和字符串比較時

原创 xgboost和lightgbm算法總結(從決策樹到xgboost)

xgboost和lightGBM在中外各種比賽(如kaggle)中使用頻率最多的一種算法之一(若不是最近幾年競賽數據越來越多圖片文本語言類數據,甚至可以去掉之一)。xgboost和lightGBM是一個基於樹模型的分佈式Boost

原创 運行apt-get update後出現錯誤

一般錯誤是如下兩種: 1、一般如果你的ubuntu是中文的設定了地區的,錯誤是如下: W: 無法下載http://ppa.launchpad.net/deluge-team/ppa/ubuntu/dists/natty/main/sour

原创 ROC曲線與PR曲線

之前一直知道怎麼看ROC,沒有過深理解相關概念(真陽假陽等)最近重新細看ROC和PR發現很多資料把這些概念搞得亂七八糟的,所以圍繞ROC和PR闡述一下,並且比較兩者在評價模型時的優劣。 一、概念介紹 1、混淆矩陣 2、重要概念 真正率

原创 初窺Linux 之 我最常用的20條命令

玩過Linux的人都會知道,Linux中的命令的確是非常多,但是玩過Linux的人也從來不會因爲Linux的命令如此之多而煩惱,因爲我們只需要掌握我們最常用的命令就可以了。當然你也可以在使用時去找一下man,他會幫你解決不少的問題。然而

原创 一文讀懂大數據計算框架與平臺

1. 前言 計算機的基本工作就是處理數據,包括磁盤文件中的數據,通過網絡傳輸的數據流或數據包,數據庫中的結構化數據等。隨着互聯網、物聯網等技術得到越來越廣泛的應用,數據規模不斷增加,TB、PB量級成爲常態,對數據的處理已無法由單臺計算機完

原创 信用卡評分模型優化

原文出處: http://blog.csdn.net/csqazwsxedc/article/details/51225156 我已經在博客裏轉載了, 存在問題: 1、源數據的獲取。要去國外網站(https://www.kaggle.co

原创 MySQL數據庫與其他數據庫的3個常用語法區別(外鏈接、分組排序row_number() over(partition by ) 、group by和distinct)

MySQL的小巧靈活易用性,和開源性,使得應用面非常廣,但是缺點也 比較多,一些常用的sql語句也有差別。以前也遇到過,最近做項目又有體會,還是記錄下來省的以後又忘記了。 1、MySQL數據庫不支持最常用的外全鏈接,即無FULL JOIN