原创 Hue 的編譯安裝及簡單使用

HUE簡介 Hue是一個開源的Apache Hadoop UI系統,由Cloudera Desktop演化而來,最後Cloudera公司將其貢獻給Apache基金會的Hadoop社區,用Python Web框架Django實現的。

原创 Spark第二天的RDD概念

3.25.15 RDD概念(重要) RDD(Resilient Distributed Dataset)叫做彈性分佈式數據集,是Spark中最基本的數據抽象,它代表一個不可變、可分區、裏面的元素可並行計算的集合。RDD具有數據流模

原创 淺探scala閉包

維基百科----閉包 In programming languages, a closure (also lexical closure or function closure) is a technique for imple

原创 redis集羣優化,JedisCluster實現Pipeline功能,進而實現批處理

前提 redis在集羣模式下無法使用Pipeline進行批處理,在一定生產環境下降低了開發效率,於是手寫了一個pipeline處理工具,以實現一個基礎的批處理 我們知道,普通的情況下,redis client與server之間

原创 HIve修改字段或者增加字段後,Spark訪問不生效問題

問題重現(例) 當我將數據存儲格式改變,或者增加一列的時候,我習慣使用了alter table add …來實現 原來的表: ALTER TABLE test ADD COLUMNS (weight STRING) CASCAD

原创 redis 筆記 簡介 數據類型

Redis 概述(參考:https://www.runoob.com/redis/redis-conf.html) Redis介紹 Redis的安裝(單機版,集羣版,分佈式集羣版) redis實操: 數據類型(常用的五大數據類型

原创 SparkStreaming簡單總結一下和幾個小案例,整合kafka

1. SparkStreaming是什麼 SparkStreaming對於Spark核心API的拓展,從而支持對於實時數據流的可拓展,高吞吐量和容錯性流處理。數據可以由多個源取得,例如:Kafka,Flume,Twitter,Z

原创 SparkSQL 簡單總結一下和一個WC案例

SparkSQL總結: 一、Spark SQL 是Spark用來處理結構化數據的一個模塊,它提供了一個編程抽象叫做DataFrame,並且作爲分佈式SQL查詢引擎的作用 二、什麼是DataFrames?? 與RDD類似,DataF

原创 SparkCore 簡單總結一下

三大數據結構: —RDD:彈性分佈式數據集 ------定義: ---------數據集:存數的數據的計算邏輯 ---------分佈式:數據的來源&計算&數據的存儲,都可以是分佈式的 ---------彈性: ---------

原创 配置HiveOnTez時,出現了找未知端口的情況,解決

1.問題重現 2019-09-21T10:35:56,809 INFO [825410d8-c524-4303-ab73-91a0b2ce70dc main] ipc.Client: Retrying connect to se

原创 Spark32種常用的算子(第三天練習)

筆記: shuffle類算子: byKey類算子 join類算子 sort類算子 distinct 聚合類的算子: reduceByKey aggregateByKey combineByKey foldByKey reduce

原创 kafka 總結 以及 JavaAPI 操作kafka生產者和消費者

https://www.jianshu.com/p/4bf007885116 入門推薦閱讀 總結 1、Segment的概念: 一個分區被分成相同大小數據條數不相等的Segment, 每個Segment有多個index文件和數據文件

原创 Spark第一天的小概念

1、什麼是RDD RDD(Resilient Distributed Dataset)叫做彈性分佈式數據集,是Spark中最基本的數據抽象,它代表一個不可變、可分區、裏面的元素可並行計算的集合. Dataset:一個數據集,簡單

原创 ElasticSearch介紹及基本API

1. ES基本介紹 https://blog.csdn.net/achuo/article/details/87865141Elasticsearch學習,請先看這一篇!內容比較完備,推薦閱讀 2. API操作練習 <depen

原创 ELK 一鍵啓動腳本,總想着怎麼偷懶

假的都是假的--------------------------------東拼西湊的腳本還挺好使 ^^ #!/bin/sh PATH=$PATH . /etc/init.d/functions start() { if