台部落yutao

1 Kafka 概述 Kafka是最初由Linkedin公司開發，是一個分佈式、支持分區的（partition）、多副本的（replica），基於zookeeper協調（0.9版本之後逐漸棄用zookeeper）的分佈式的發佈/訂

2020-06-24 06:19:14

1 Shell概述 1.1 Shell簡介 Liunx內核是一組操作系統軟件，用於直接控制和管理整個硬件，爲了避免被用戶隨意的操作，在Linux內核外有個shell層，Shell是一個命令行解釋器，用戶和其他應用通過shell去

2020-06-24 06:19:14

1 檢查與安裝依賴 #ssh sudo yum install -y curl policycoreutils-python openssh-server sudo systemctl enable sshd sudo syste

2020-06-24 06:19:14

1 Hive基本概念 1.1 什麼是Hive Hive：由Facebook開源用於解決海量結構化日誌的數據統計。Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張表，並提供類SQL查詢功能。本質是：將

2020-06-24 06:19:14

1 HDFS概述 1.1 HDFS產出背景及定義 1.1.1 HDFS產生背景隨着數據量越來越多，在一個操作系統存不下所有的數據，那麼就分配到更多的操作系統管理的磁盤中，但是不方便管理和維護，迫切需要一種系統來管理多臺機器上的文

2020-06-24 06:19:14

服務器準備硬件條件系統 CPU（核）內存（GB） ip 服務 CentOS 7.4 4 16 192.168.1.241 redis、nginx CentOS 7.4 4 8 192.168.1.242 r

2020-06-24 06:19:14

參考文檔： https://www.cnblogs.com/xiugeng/p/10155283.html#_label0 https://zhuanlan.zhihu.com/p/108577218 1 環境準備主機名

2020-05-21 01:23:41

gitlab分支操作創建分支填寫分支名稱，並選擇從master分支創建分支（如果有其它分支也可選擇）填寫分支名稱，並選擇從yuhua分支創建分支（如果有其它分支也可選擇）切換分支 git操作

2020-02-25 20:04:56

1 大數據概論大數據（Big Data）：指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。主要解決：含量數據的存

2020-02-25 20:04:56

垃圾收集機制程序計數器、虛擬機棧、本地方法棧3個區隨線程而生，隨線程而滅：棧中的棧幀隨着方法的進入和退出而有條不紊地執行着出棧和入棧操作，每個棧幀中分配多少內存基本上是在類結構確定下來就已知（運行期JIT編譯器會進行優化暫時忽略

2019-10-26 11:52:29

1 Flume簡介 1.1 Flume概述 Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統。Flume的使用不僅限於日誌數據聚合，由於數據源是可定製的，因此Flume可用於傳輸大量

2019-10-26 11:52:29

1 Flume事務 2 Flume Agent內部原理 2.1 ChannelSelector ChannelSelector 的作用就是選出 Event 將要被髮往哪個 Channel。其共有兩種類型，分別是 Replic

2019-10-26 11:52:29

mysql安裝 mysql單機正常支持千萬級的數據 centos7上安裝mysql: 1.檢查系統是否已安裝mysql rpm -qa|grep -i mysql 2.如果已安裝，可選擇卸載 rpm -e mysql　　// 普

2019-09-10 10:31:26

1.檢查與安裝依賴 #ssh sudo yum install -y curl policycoreutils-python openssh-server sudo systemctl enable sshd sudo syste

2019-09-03 09:35:13

常用命令基礎指令 locale：系統語系支持 date：顯示日期和時間（+%Y-%m%-%d %H:%M:%S） cal：顯示日曆 bc：計算器 man：查看指令和檔案用法 info：線上指令和檔案用法查看 setup：查看

2019-07-05 09:44:41