原创 flume學習筆記

1.flume概述 1.1.flume概念 1.1.1.flume概念 flume是分佈式的,可靠的,高可用的,用於對不同來源的大量的日誌數據進行有效收集、聚集和移動,並以集中式的數據存儲的系統。 flume目前是apache的一個頂

原创 sqoop操作方法和原理

一、sqoop 顧名思義:sql-to-hadoop,從中我們可以看出sqoop名字的由來,即sq + oop。 1.1、sqoop簡介 sqoop是一個用來將hadoop中hdfs和關係型數據庫中的數據相互遷移的工具,可以將一個關係

原创 ROW_NUMBER() OVER()函數用法詳解 (分組排序 例子多) ROW_NUMBER() OVER()函數用法詳解 (分組排序 例子多)

轉載自:https://blog.csdn.net/qq_25221835/article/details/82762416,感謝作者的分享 原 ROW_NUMBER() OVER()函數用法詳解 (分組排序 例子多)

原创 邏輯迴歸從入門到深入(logistic regression)

轉載地址:https://blog.csdn.net/ustbbsy/article/details/80423294。 感謝作者分享 1 引言    最近做一個項目,準備用邏輯迴歸來把數據壓縮到[-1,1],但最後的預測卻是和標籤

原创 隱馬爾可夫模型及Viterbi算法

這裏分享一個鏈接,感謝作者的分享。 https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653558648&idx=1&sn=047b8846eb42fcdfcc09dae4d

原创 數據特徵分析之帕累託分析以及python實現

帕累託分析(貢獻度分析) → 帕累托法則:20/80定律 “原因和結果、投入和產出、努力和報酬之間本來存在着無法解釋的不平衡。一般來說,投入和努力可以分爲兩種不同的類型: 多數,它們只能造成少許的影響;少數,它們造成主要的、重大的影響

原创 數據分析之正態分佈檢驗及python實現

正態分佈(Normal distribution),也稱“常態分佈”,又名高斯分佈(Gaussian distribution),最早由A.棣莫弗在求二項分佈的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.

原创 在centOS中vim的配置文件存放在/etc/vim目錄中,配置文件名爲vimrc

在centOS(當前主機爲centos 7.5)中vim的配置文件存放在/etc/vim目錄中,配置文件名爲vimrc 在終端 輸入以下命令來編輯vimrc配置文件: vim /etc/vimrc 或者 /etc/vimrc 這裏跟

原创 MySQL優化

當MySQL單表記錄數過大時,增刪改查性能都會急劇下降,可以參考以下步驟來優化: 單表優化 除非單表數據未來會一直不斷上漲,否則不要一開始就考慮拆分,拆分會帶來邏輯、部署、運維的各種複雜度,一般以整型值爲主的表在千萬級以下,字符串爲主

原创 在centos7.5中解決bash: pip:command not find 問題

在使用python的時候,有時候會需要找到python包的安裝位置,來找其他安裝的第三方包。下面我們來看看,在不同平臺上,怎麼找到python的安裝路徑。 對於linux平臺來說,很多運行的系統軟件都是建立在python的基礎之上,如

原创 Hadoop運行環境搭建

1環境搭建 基本配置:centos6.5 主機內存:16g 虛擬機版本:12pro 1.1 虛擬機網絡模式設置爲NAT 最後,重新啓動系統。 [root@hadoop101 ~]# sync [root@hadoop101 ~]#