原创 大數據框架--hadoop、spark、storm、flink、Samza介紹

Hadoop、Spark、Storm、Flink是比較常用的分佈式計算系統 1)僅批處理框架:Hadoop常用於離線的複雜的大數據處理。 2)僅流處理框架:Samza與YARN和Kafka緊密集成的流處理,Storm常用於在線的實時的大數

原创 企業級數據倉庫構建

數據倉庫架構 首先對數據倉庫的架構簡單介紹: facebook的ppt上了解到的是他們在hive上做大數據量的分析,計算結果放到oracle上做BI展示和計算hadoop MR or hive上ETL計算完的結果表,同步到oracle中,

原创 hadoop離線分析(簡單版)-zookeeper

目錄   簡述 zookeeper安裝 zookeeper啓動原理 hadoop HA參照:https://blog.csdn.net/qq_36632174/article/details/79794754 簡述 zookeeper是G

原创 編程優化(Java)

其實各種工作,各種行爲有很多都是共通的,萬變不離其中,如果想成爲技術上真正的高手,修煉技術的"內功"是必不可少的,追溯本質。掌握如何實現一項開發任務,其實這只是"招式",真正理解從硬件開始的每個階段運行原理纔是"內功",也是編程的根基。編

原创 hadoop離線分析(簡單版)-windows整合

目錄   windows的Navicat連接ubuntu16.04的mysql-cluster windows eclipse連接ubuntu大數據框架 在eclipse上進行開發 windows的Navicat連接ubuntu16.04

原创 hadoop離線分析(簡單版)-前期準備

之前博客已經對Apache Hadoop的高可用搭建進行描述,詳細參照:https://blog.csdn.net/qq_36632174/article/details/79794754 在搭建源生的Apache Hadoop之前,而且

原创 Java基礎-雜貨鋪

初學Java時總結的一些基礎,對於Java經驗者們看來這些都是很簡單的基礎知識,但正所謂:“根基不牢,地動天搖”。也不要忽略了基礎的重要性,溫故而知新。本篇文章不是什麼專題,只是記錄,有不對的地方歡迎各路神佛批評指正。 原子性:如果把一個

原创 hadoop離線分析(簡單版)-Kafka

目錄   kafka概述 kafka特性和應用場景 kafka基本架構及原理 Zookeeper在kafka的作用 Kafka核心組件 Kafka備份機制 kafka的安裝配置(所有節點) kafka概述 Kafka是最初由Linkedi

原创 Docker基礎知識

目錄   Docker概述 Docker起源 Docker架構原理 關於Linux Namespace 關於AUFS 應用程序遷移Docker Docker安全 Docker能做什麼 kubernets(K8s)與Docker Docke

原创 hadoop離線分析(簡單版)-Hbase

目錄   Hbase概述 Hbase與Hive、Pig、Impala、Tez對比 Hbase架構原理 Hbase邏輯模型 Hbase物理存儲 HBase工作流程 HBase的高可用 HBase性能和優化 HBase shell訪問 Hba

原创 Docker安裝配置

目錄 操作系統、鏡像、容器 阿里雲ubuntu16.04安裝Docker Docker啓動的容器中安裝組件 操作系統、鏡像、容器 Docker鏡像和操作系統沒關係,docker最大的價值就是提出了鏡像打包技術。 首先你得明白什麼是dock

原创 hadoop離線分析(簡單版)-nginx+tomcat

目錄 Nginx概述 tomcat概述 tomcat 與 nginx,apache的區別 tomcat、websphere、Jboss、weblogic區別 總結 Nginx+Tomcat搭建高性能負載均衡集羣 Nginx是一款輕量級的W

原创 Jenkins安裝配置

目錄 Jenkins概述 Jenkins應用 Jenkins特性(優點) CI系統的基本結構 Jenkins目標 Jenkins安裝配置 Jenkins實際應用 Jenkins概述 Jenkins是一個開源軟件項目,是基於Java開發的一

原创 hadoop離線分析(簡單版)-Hive

目錄   Hive概述 Hive架構 Hive運行機制 Hive安裝配置 Hive概述 基於Hbase的高層語言。類似於SQL --- 訪問和處理關係型數據庫的計算機語言。Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文

原创 hadoop離線分析(簡單版)-實現流程+數據分析

目錄   整體流程概述 穩妥的採集數據方法 FTP服務器上的Flume配置文件如下 其它常見問題 應用層代碼部署到分佈式mycluster1 數據採集(Flume採集nginx日誌) Visits數據分析 大數據離線自動執行流程--基於j