原创 flume系列-flume負載均衡(存HDFS)

爲什麼不直接把客戶端的數據保存到HDFS? 服務端做統一的數據過濾處理比較方便(也比較規範),如果客戶端量比較大,中間還可以用kafka隊列做消峯處理,然後服務端再從kafka獲取數據存儲到HDFS 1、CDH安裝flume(web也沒

原创 hbase系列-HBase Scan類用法

HBase Scan類用法 public static void main(String[] args) throws IOException { //Scan類常用方法說明 //指定需要的family或column ,如果沒有調用

原创 elasticsearch系列-elasticsearch及插件安裝

elasticsearch及插件安裝 一、elasticsearch安裝(所有節點) 1、下載 下載地址:https://www.elastic.co/cn/downloads/elasticsearch 下載後放在 /opt 目錄下

原创 elasticsearch系列-elasticsearch教程

elasticsearch教程 注意: 1、elasticsearch的rest默認端口爲9200,客戶端的默認端口爲9300,也就是,java編程連接的端口爲9300 命令模式: curl -<REST Verb> <Node>:<P

原创 redis系列-redis安裝

1、下載redis(下載的版本是redis-4.0.2.tar.gz) https://redis.io/download 2、解壓安裝 redis放在 /credit目錄下,執行下面命令解壓安裝 cd /credit tar -zxv

原创 kafka系列-kafka配置

#唯一標識在集羣中的ID,要求是正數。 broker.id=0 #服務端口,默認9092 port=9092 #監聽地址,不設爲所有地址 host.name=debugo01   # 處理網絡請求的最大線程數 num.network.t

原创 hive系列-hive整合hbase

hive整合hbase 1、在hive控制檯建庫,建表(注意,int,long,boolean這些數據類型,映射時要加上#b,不然查詢到的數據會是亂碼或者null) create database credit_mate_data; us

原创 hive系列-hive安裝

hive安裝 1.上傳hive安裝包解壓,將hive添加到環境變量當中 2.mysql安裝 (hive會依賴一個外部數據庫,保存相關的表和庫等數據,默認是derby,它會在hive命令執行的目錄保存相關的數據,換了一個目錄執行hive,

原创 hive系列-hive教程

hive教程 備註:hive本身是不存儲數據的,它可以把Mysql、Hdfs、Hbase等當然數據源,然後做數據處理,表面上,Hive用的是SQL,但是Hive的底層是MapReduce,它只是一個把SQL轉變成MapReduce的工具

原创 數據庫事務的四大特性以及事務的隔離級別

數據庫事務的四大特性以及事務的隔離級別 如果一個數據庫聲稱支持事務的操作,那麼該數據庫必須要具備以下四個特性: ⑴ 原子性(Atomicity)   原子性是指事務包含的所有操作要麼全部成功,要麼全部失敗回滾; ⑵ 一致性(Consis

原创 手動部署和使用工具(Cloudera Manager、Ambari)部署Hadoop對比

手動部署優點:對組件和集羣管理深刻(對學習比較好)、支持全部組件; 手動部署缺點:比較複雜,安裝耗時比較多,要自己解決各個組件直接的兼容性 工具部署優點:安裝超級簡單(界面化操作)、支持常用組件(不常用可以自己集成進去)、默認優化了

原创 flume系列-flume單點集成HDFS

(spooldir)新增文件輸入(往目錄添加新文件),遠程輸出到HDFS,支持windows(這個例子在windows下完成) 官網或者github下載apache-flume-1.7.0-bin.tar.gz,然後解壓在E盤,添加環境變

原创 CDH 的Cloudera Manager免費與收費版的對比表

CDH 特性 免費版 付費版 Deployment, Configuration & Management 系統管理 Automated Deployment & Hadoop Readiness Checks 自動化部署

原创 hbase系列-hbase shell操作

hbase shell操作 1、啓動hbase shell ./bin/hbase shell 2、HBase常用命令status, version, table_help和whoami status 命令返回包括在系統上運行的服務器的

原创 kafka系列-kafka教程

kafka簡介 1、kafka是一個分佈式的消息緩存系統,穩定性高,吞吐量高,適合高併發項目 2、kafka集羣中的服務器都叫做broker 3、kafka有兩類客戶端,一類叫producer(消息生產者),一類叫做consumer(消息