原创 Spark入門(四)——Spark RDD算子使用方法

Spark RDD算子 RDD算子實戰 轉換算子 map(function) 傳入的集合元素進行RDD[T]轉換 def map(f: T => U): org.apache.spark.rdd.RDD[U] scala> sc

原创 Spark入門(二)——Spark環境搭建與開發環境

Spark Standalone與Spark On Yarn環境搭建Standalone單節點模式Spark On YarnSpark 開發環境構建SparkRDDWordCount(本地)集羣(yarn)集羣(standalon

原创 Spark入門(三)——SparkRDD剖析(面試點)

Spark RDD剖析RDD簡介如下案例:RDD容錯RDD 寬窄依賴Sage劃分(重點)小結RDD緩存機制Check Point 機制 RDD簡介 Spark計算中一個重要的概念就是可以跨越多個節點的可伸縮分佈式數據集 RDD(r

原创 Spark入門(一)——Spark的“前世今生”

Spark的誕生Spark簡介計算流程 Spark簡介 Spark 是一個用來實現快速而通用的集羣計算的平臺。 在速度方面,Spark 擴展了廣泛使用的 MapReduce 計算模型,而且高效地支持更多計算模式,包括交互式查詢和

原创 GeoHash算法原理及實現

GeoHash原理與Java實現GeoHash算法原理樣例數據(基於15次區域分割)GeoHash算法思想GeoHash算法原理後續問題GeoHash算法代碼實現寫在最後 GeoHash算法原理 GeoHash是目前比較主流實現

原创 大清已經亡了,你還停留在Redis是單線程的時代?

Redis從單線程到多線程的轉變Redis簡介Redis單線程時代`“單線程”`的Redis爲什麼會這麼快?Redis的瓶頸6.0版本後的Redis線程問題redis的多線程不是你理解的多線程redis的多線程是默認關閉的 Red

原创 使用Docker搭建Greenplum

準備工作 Docker環境 Greenplum安裝包 greenplum-db-6.4.0-rhel7-x86_64.rpm 密碼:sv4p 安裝 Dockerfile文件 FROM lyasper/gphost CO

原创 SpringCloud之OpenFeign

Feign提供聲明式的遠程調用,借用動態代理實現遠程調用,使編寫Web服務客戶端變得更容易。 Spring Cloud增加了對Spring MVC註釋的支持,並使用了Spring Web中默認使用的相同HttpMessageCon

原创 Elasticsearch入門篇

ElasticSearch ElasticSearch:簡稱爲ES,基於Lucene全文檢索引擎服務,支持分佈式集羣(數據橫向擴展、分佈式計算) 應用場景:1. 全文檢索或者搜索服務 2. NOSQL數據庫(ES中的數據單元爲JS

原创 Hadoop生態圈-Hive

HiveHive引言Hive的運行原理Hive環境搭建Hive基本操作MetaStore的替換問題Hive基礎語法1.HQL2.表操作1)管理表 (MANAGED_TABLE)2)外部表3) 分區表【優化查詢】4)桶表5)臨時表3

原创 SpringCloud之Ribbon-負載均衡

負載均衡:Spring Cloud Ribbon Spring Cloud Ribbon 是一個基於Http和TCP的客服端負載均衡工具,它是基於Netflix Ribbon實現的。通過SpringCloud的自動配置使得項目可以

原创 SpringCloud之註冊中心-Nacos

Nacos簡介 Nacos是阿里巴巴開源的一款支持服務註冊與發現,配置管理以及微服務管理的組件。用來取代以前常用的註冊中心(zookeeper , eureka等等),以及配置中心(spring cloud config等等)。N

原创 SpringCloud之熔斷器-Hystrix

Hystrix是一個延遲和容錯庫,旨在隔離對遠程系統,服務和第三方庫的訪問點,停止級聯故障,並在複雜的分佈式系統中實現彈性,在這些系統中,故障是不可避免的。 依賴 <dependency> <groupId>org.sprin

原创 Apache Flume

Apache Flume介紹架構Flume環境搭建配置文件結構快速入門啓動Avro SourceMaven依賴代碼Avro Source | memory channel| Kafka SinkFlume和log4j整合依賴log

原创 Spark SQL 讀取 Hive表中數據 在Cluster模式下找不到庫

在Spark On Hive使用SparkSQL讀取hive表中的數據,local和client模式下測試都可以通過,但在yarn的cluster模式下測試拋出瞭如下異常: org.apache.spark.sql.catalys