原创 java獲取kafka consumer lag、endOffsets、beginningOffsets以及 KafkaConsumer總結

一、java獲取kafka consumer lag、endOffsets、beginningOffsets maven依賴: <dependency> <groupId>org.apache.kafka</groupId

原创 spark structured-streaming 最全的使用總結

一、spark structured-streaming  介紹        我們都知道spark streaming  在v2.4.5 之後 就進入了維護階段,不再有新的大版本出現,而且 spark streaming  一直是按照微批

原创 spark讀取和處理zip、gzip、excel、等各種文件最全的技巧總結

一、當後綴名爲zip、gzip,spark可以自動處理和讀取 1、spark非常智能,如果一批壓縮的zip和gzip文件,並且裏面爲一堆text文件時,可以用如下方式讀取或者獲取讀取後的schema spark.read.text("xx

原创 spark-sql 與hive 常用函數

窗口函數與分析函數應用場景:(1)用於分區排序(2)動態Group By(3)Top N(4)累計計算(5)層次查詢 窗口函數FIRST_VALUE:取分組內排序後,截止到當前行,第一個值LAST_VALUE: 取分組內排序後,截止到當前行

原创 【轉載】大數據OLAP系統--開源組件方案對比

開源大數據OLAP組件,可以分爲MOLAP和ROLAP兩類。ROLAP中又可細分爲MPP數據庫和SQL引擎兩類。對於SQL引擎又可以再細分爲基於MPP架構的SQL引擎和基於通用計算框架的SQL引擎:   MOLAP一般對數據

原创 Spark任務性能調優總結

一、shuffle調優 大多數Spark作業的性能主要就是消耗在了shuffle環節,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此,如果要讓作業的性能更上一層樓,就有必要對shuffle過程進行調優。但是也必須提醒大家的

原创 談談在incubator-dolphinscheduler 中爲啥不能及時看到python任務輸出的print日誌

一、incubator-dolphinscheduler 中如何獲取shell類型的節點或者python類型的節點任務的日誌 1、在org.apache.dolphinscheduler.server.worker.task.Abstrac

原创 聯童科技基於incubator-dolphinscheduler從0到1構建大數據調度平臺之路

聯童科技是一家智能化母嬰童產業平臺,從事母嬰童行業以及互聯網技術多年,擁有豐富的母嬰門店運營和系統開發經驗,在會員經營和商品經營方面,能夠圍繞會員需求,深入場景,更貼近合作伙伴和消費者,提供最優服務產品,公司致力於以技術來驅動母嬰童產業的發

原创 軟件性能測試分析與調優實踐之路-Web中間件的性能分析與調優總結

本文主要闡述軟件性能測試中的一些調優思想和技術,節選自作者新書《軟件性能測試分析與調優實踐之路》部分章節歸納。 在國內互聯網公司中,Web中間件用的最多的就是Apache和Nginx這兩款了,包括很多大型電商網站淘寶、京東、蘇寧易購等,都在

原创 ClickHouse學習筆記--ClickHouse的整體特性

本文主要包含如下內容: ClickHouse適用場景 ClickHouse缺點 ClickHouse優點 ClickHouse表引擎-合併樹 ClickHouse表引擎-合併樹-稀疏索引 ClickHouse表引擎-內存引擎 ClickH

原创 軟件性能測試分析與調優實踐之路-性能分析調優思想與調優技術總結

本文主要闡述軟件性能測試中的一些調優思想和技術,節選自作者新書《軟件性能測試分析與調優實踐之路》部分章節歸納。 一、  性能分析與調優思想 1、性能分析調優模型 性能測試除了爲獲取性能指標外,更多是爲了發現性能瓶頸和性能問題,然後對性能問題

原创 談談IT圈的門檻與學歷的關係以及如何避免青春飯?

一、關於自己 我是一名80後的IT老兵,從今年出現疫情後,就感覺多少有些力不從心了,因爲公司的業務做的不好,公司是做普惠金融的,疫情出現後,催收逾期就非常厲害,導致公司不敢大量放貸,從而就出現了公司收益減少。這時候公司內部很多人就慌了,因

原创 架構設計思想-微服務架構設計模式

一、微服務架構設計中經常需要處理的問題羅列: API Gateway 內部服務間互相調用 服務發現 服務容錯、熔斷、降級 服務部署 數據處理   二、設計模式 1、微服務-聚合器設計模式:         聚合器調用多個服務實現應用

原创 大數據數據倉庫架構設計基礎概念和設計思想整理

一、ODS層ODS 全稱是 Operational Data Store,一般對應的是操作性數據存儲,直接面向主題的,也叫數據運營層,通常是最接近數據源中數據的一層,數據源中的數據,經過抽取、洗淨、傳輸,也就是通常說的 ETL 之後的數據存

原创 比較全的常見的架構設計思想整理

一、MPP 架構 1、MPP架構的基礎概念 MPP (Massively Parallel Processing),即大規模並行處理,在數據庫非共享集羣中,每個節點都有獨立的磁盤存儲系統和內存系統,業務數據根據數據庫模型和應用特點劃分到各個