原创 Spark實時項目第六天-訂單表與用戶維度表聯立

HBase建表 create table gmall_user_info ( id varchar primary key , info.user_level varchar, info.birthday varchar,in

原创 Spark實時項目第七天-存儲orderInfo和orderDetail的ES模板

PUT _template/gmall_order_info_template { "index_patterns": ["gmall_order_info*"], "setting

原创 Spark實時項目第六天-維度數據業務流程之監控維表數據並用maxwell-bootstrap初始化數據(全量導入省份表)

處理維度數據合併的策略 維度數據和狀態數據非常像,但也有不同之處: 共同點: 長期保存維護 可修改 使用k-v方式查詢 不同點: 數據變更的時機不同 狀態數據往往因爲事實數據的新增變化而變更 維度數據只會受到業務數

原创 Spark實時項目第五天-需求分析|HBase和Phoenix配置|SQuirreL得簡單使用|表得創建

需求分析:按地區(用戶性別、用戶年齡段)統計當日新增付費用戶首單平均消費 每筆訂單都要判斷是否是該用戶的首單。 無論是地區名稱、用戶性別、用戶年齡,訂單表中都沒有這些字段。但是可以通過外鍵的形式關聯其他表得到這些值。 處理判斷

原创 Spark實時項目第五天-Maxwell得安裝及Maxwell版本的ODS層分流操作

Maxwell maxwell 是由美國zendesk開源,用java編寫的Mysql實時抓取軟件。 其抓取的原理也是基於binlog。 工具對比 Maxwell 沒有 Canal那種server+client模式,只有一個se

原创 Spark實時項目第五天-從cannal分流到kafka到實時計算判斷首單並處理同批次訂單首單判定衝突(HBase)

增加依賴 <dependency> <groupId>org.apache.phoenix</groupId> <artifactId>phoenix-spark</artifactId> <version

原创 Spark實時項目第四天-ODS層實時計算分流(根據表分流到不同的主題中去)

編寫代碼 在原來得spark-gmall-dw-realtime項目中繼續添加代碼 增加MyKafkaSinkUtil 在scala\com\atguigu\gmall\realtime\utils\MyKafkaSinkUti

原创 Spark實時項目第四天-MySQL的準備及Canal的安裝測試

採集數據框架流程 Canal 使用場景 阿里otter中間件的一部分:otter是阿里用於進行異地數據庫之間的同步框架,canal是其中一部分。 更新緩存 抓取業務數據新增變化表,用於製作拉鍊表。 抓取業務表的新增變化數據

原创 Spark實時項目第三天-精準一次消費|手動提交偏移

精確一次消費 問題產生 解決方案 手動提交偏移量 用Redis保存偏移量原因 編寫OffsetManagerUtil 在scala\com\atguigu\gmall\realtime\utils\OffsetManag

原创 Linux用pip install myclient出現Caused by SSLError(SSLError解決辦法

錯誤 Could not fetch URL https://pypi.tuna.tsinghua.edu.cn/simple/mysqlclient/: There was a problem confirming the ss

原创 Spark實施項目第三天-日活數據查詢接口編寫

目的 訪問路徑 數據格式 創建一個Spring Initializr項目 <properties> <java.version>1.8</java.version> </properties

原创 Spark實時項目第二天-代碼開發之消費kafka|Redis去重|建立模板將數據保存到ES中

創建Maven項目並導入POM <properties> <spark.version>2.4.0</spark.version> <scala.version>2.11.8</scala.vers

原创 ElasticSearch在Java程序中的應用

關於es 的java 客戶端的選擇 目前市面上有兩類客戶端 一類是TransportClient 爲代表的ES原生客戶端,不能執行原生dsl語句必須使用它的Java api方法。 另外一種是以Rest Api爲主的missing

原创 ElasticSearch對數據得操作-增刪查改|過濾|排序|分頁查詢|指定查詢|高亮|聚合

ElasticSearch restful api (DSL) DSL全稱 Domain Specific language,即特定領域專用語言。 es中保存的數據結構 以文檔方式存儲, 查看es中有哪些索引 增加一個索引 P

原创 ElasticSearch特點|B+Tree|lucene倒排索引結構|lucene與elasticsearch的關係|基本概念

ElasticSearch特點 1. 天然分片,天然集羣: es 把數據分成多個shard,下圖中的P0-P2,多個shard可以組成一份完整的數據,這些shard可以分佈在集羣中的各個機器節點中。隨着數據的不斷增加,集羣可以增加