原创 關於面試--【項目中爲什麼通常flume和kafka要共同使用?】

1整體來說    我們很多人在在使用Flume和kafka時,都會問一句爲什麼要將Flume和Kafka集成?那首先就應該明白業務需求,一般使用Flume+Kafka架構都是希望完成實時流式的日誌處理,後面再連接上Flink/Storm/

原创 IntelliJ IDEA 搭建Python項目

直接乾貨 打開idea 點擊 File->Settings...->Plugins,在裏面搜索python,如下圖所示: 點擊旁邊綠色的install,稍等片刻即可完成安裝。安裝完成後原本的install按鈕變成了restart,說明需要

原创 【Python3.8筆記】二、開發入門

Python 下載安裝和配置 1. 進入官網:http://www.python.org/downloads/ 2. 下載 3. 安裝 4. 環境變量問題 勾選:“Add Python to environment variable”。

原创 關於面試--【HDFS 讀寫流程】

讀取流程 打開分佈式文件:調用分佈式文件 DistributedFileSystem.open( ) 方法; 尋址請求:從 NameNode 處得到 DataNode 的地址,DistributedFileSystem使用 RPC 方式調

原创 關於面試--【hive ORCfile 聊聊】

1建表 create table temp.parquet_log(   events string,   header map<string,string> ) STORED AS ORC; CREATE TABLE dwt.tmp_

原创 datax 簡單例子

{ "job": { "setting": { "speed": { "channel": 4 }, "er

原创 關於面試--【Standby Namenode Checkpoint】&【namenodeHA】

 Standby Namenode  Standby Namenode(sbn)在進入standby狀態後對FSNamesystem調用startStandbyServices(final Configuration conf),該方法會

原创 ip.db 讀取和使用方法

import sqlite3 ##可以在 Python 程序中使用 SQLite 數據庫 import time class IPPool(object): ##存儲ip的數據庫,包括兩張表ip_table和all_ip_

原创 關於面試--【spark stage 的劃分】

object BaiWordCount2 {     def main(args: Array[String]) {       .....       // Create the context       val ssc = ne

原创 【Python3筆記】四、Python整數

整數 Python 中,除 10 進制,還有其他三種進制: ·0b 或 0B,二進制 0 1 ·0o 或 0O,八進制 0 1 2 3 4 5 6 7 ·0x 或 0X,十六進制 0 1 2 3 4 5 6 7 8 這三種進制可以非常方便

原创 【Python3筆記】三、Python的對象

Python 中,一切皆對象。每個對象由:標識(identity)、類型(type)、value(值) 組成。 1. 標識用於唯一標識對象,通常對應於對象在計算機內存中的地址。使用內置函數 id(obj) 可返回對象 obj 的標識。 2

原创 關於面試--【hadoop 和 spark 在處理數據時,處理出現內存溢出的方法有哪些?】

1. map過程產生大量對象導致內存溢出 這種溢出的原因是在單個map中產生了大量的對象導致的。 例如:rdd.map(x=>for(i <- 1 to 10000) yield i.toString),這個操作在rdd中,每個對象都產生

原创 linux 安裝pip詳細步驟

1)直接安裝 python get-pip.py  這種方法不行的情況下嘗試其他方式 2)去官網下載 ①https://pypi.python.org/pypi/pip ②下載之後的包上傳到服務器上 這裏可以不用下載直接 wget ht

原创 關於面試--【kafka消息可靠性保證】

目錄 1、AR 1.ISR 2.OSR 3.LEO 4.HW 5.HW截斷機制 2、生產者可靠性級別 3、leader選舉 4、kafka可靠性的保證 1、AR     在Kafka中維護了一個AR列表,包括所有的分區的副本。AR又分爲I

原创 DATAX 3.0 介紹

轉載於:https://github.com/alibaba/DataX/blob/master/introduction.md​ DataX 是一個異構數據源離線同步工具,致力於實現包括關係型數據庫(MySQL、Oracle等)、HDF