原创 高可用集羣搭建系列文章之二:ZooKeeper集羣搭建

本篇文章主要介紹ZooKeeper的搭建 1、下載安裝包,並解壓 下載地址 解壓命令如下: tar -zxvf zookeeper-3.4.6.tar.gz 2、配置/etc/profile export ZOOKEEPER

原创 高可用集羣搭建系列文章之七:Oozie 搭建

本篇文章主要介紹Oozie的搭建,Oozie在任一節點安裝即可。 1、下載安裝包,並解壓 下載地址(http://archive.cloudera.com/cdh5/cdh/5/oozie-4.1.0-cdh5.8.0.tar.g

原创 高可用集羣搭建系列文章之一:創建用戶、免密鑰登錄、時間同步

由於工作需要,最近搭建了一系列的大數據相關組件的集羣,現在講搭建的過程和遇到的一些問題進行整理記錄,主要包含ZooKeeper、Hadoop、HBase、Hive等集羣的搭建。 1、服務器環境 機器 IP 內存 磁盤

原创 高可用集羣搭建系列文章之四:HBase集羣搭建

本篇文章主要介紹HBase的搭建 1、下載安裝包,並解壓 下載地址 解壓命令如下: tar -zxvf hbase-0.98.10-hadoop2-bin.tar.gz 2、配置/etc/profile export HBAS

原创 高可用集羣搭建系列文章之五:Hive搭建

本篇文章主要介紹Hive的搭建,由於公司環境要求,這裏選擇的是hive-1.2.1。安裝Hive之前必須安裝MySQL,因爲這裏Hive的元數據是保存在MySQL中的。Hive在任一節點安裝即可。 1、下載安裝包,並解壓 下載地址

原创 高可用集羣搭建系列文章之六:Sqoop搭建

本篇文章主要介紹Sqoop的搭建,Sqoop在任一節點安裝即可。 1、下載安裝包,並解壓 下載地址 解壓命令如下: tar -zxvf sqoop-1.4.5.bin__hadoop-2.0.4.tar.gz 2、配置/etc

原创 高可用集羣搭建系列文章之三:Hadoop集羣搭建

本篇文章主要介紹Hadoop HA的搭建 1、下載安裝包,並解壓 下載地址 解壓命令如下: tar -zxvf hadoop-2.6.5.tar.gz 2、配置/etc/profile export HADOOP_HOME=/h

原创 Windows10安裝Docker遇到的問題

一、無法安裝hyper-v該固件中的虛擬化支持被禁用 windows 10開啓 hyper-v的過程中(右鍵開始–>程序和功能–>啓用和關閉windows功能–>Hyper-V)提示出現無法安裝hyper-v該固件中的虛擬化支持被

原创 XGBoost原理簡介

一、簡述        這裏先簡單介紹下RF(Random Forest)、GBDT(Gradient Boosting Decision Tree)和XGBoost算法的原理。        RF:從M個訓練樣本中隨機選取m個樣

原创 隱馬爾科夫模型HMM(一) -- 模型介紹

       目前在工作中使用到了jieba分詞,主要是對文章進行切詞,在深入理解jieba切詞原理的時候,發現其採用了隱馬爾科夫模型HMM,因此對HMM進行了研究,這裏就自己學習到的知識進行記錄。文章主要參考了宗成慶老師的《統計

原创 Hadoop HA高可用集羣搭建 -- 創建用戶、配置免密要登錄

由於工作需要,最近搭建了一系列的大數據相關組件的集羣,現在講搭建的過程和遇到的一些問題進行整理記錄,主要包含ZooKeeper、Hadoop、HBase、Hive等集羣的搭建。 1、服務器環境 機器 IP 內存 磁盤

原创 VMware+CentOS7.0+Hadoop2.6.5完全分佈式搭建

       由於工作需要,最近自己搭建了一個虛擬機,並且在虛擬機上搭建了一個Hadoop集羣用於測試。 一、虛擬機搭建,並設置IP        虛擬機搭建比較簡單不再介紹,其中網絡配置參考《VMware中CentOS 7設置固

原创 虛擬機(VMware14)內CentOS7安裝jdk

這裏以CentOS7配置jdk爲例進行說明 1、在官網下載jdk1.8的安裝包 jdk-8u171-linux-x64.tar.gz 2、創建目錄/usr/java/jdk cd /usr mkdir java cd jav

原创 隱馬爾科夫模型HMM(二) -- 估計問題

       首先我們來研究HMM的第一個問題 – 估計問題。給定一個HMM模型μ=(S,K,A,B,π)\mu =\left ( S,K,A,B,\pi \right )μ=(S,K,A,B,π)和觀察序列O=O1O2O3..

原创 隱馬爾科夫模型HMM(四) -- 參數估計問題

       最後,我們研究第三個問題,參數估計問題。也即是給定一個觀察序列O=O1O2O3...OTO=O_{1}O_{2}O_{3}...O_{T}O=O1​O2​O3​...OT​,如何根據最大似然估計來求模型的參數值?即如