原创 業務指標分析 | 多維度統計:統計每一個省份每一小時點擊Top3的廣告

文章目錄場景準備業務要求SQL分析 場景準備 某張表裏有字段:provinceid、hour、adid,表示省份id、小時段和廣告id,每一行表示一份廣告點擊數據,模擬數據如下。 省份id 廣告id 1 1 100 1 1 100

原创 圖數據庫 | 我用Neo4j 實現了柯南和怪盜基德周邊動態關係圖譜

代碼可以看github柯南動態關係圖譜 Cypher 建立關係圖譜 MERGE (p1:Kenan {name:'柯南', image:'kn.png'}) MERGE (p2:Kenan {name:'毛利蘭', image:'

原创 業務指標分析 | 我用一條SQL統計了PV、UV和二跳率

文章目錄場景準備業務要求SQL分析 場景準備 假設有一張track_log表,裏面有字段:url、guid、sessionid、ds(url、全局唯一標識、會話id、日期),數據示例如下,其中,一個guid可以有多個session

原创 3種方式幫你完成J2EE業務系統根據taskID啓動對應spark應用

1. 根據taskID啓動對應spark應用的方式 1.1 調用本地的shell腳步來啓動spark的應用 Java程序中調用本地的shell腳步來啓動spark的應用 shell腳步中是spark-submit的命令 優點:簡

原创 fastspark | 用SparkCore和SparkSQL兩種方式實現各省份廣告TopN統計

內容 本文講述使用SparkCore和SparkSQL實現每個省份點擊量最多的前三個廣告id,測試數據如下 省份id 廣告id 1 100 1 100 1 100 1 112 1 101 1 112 1 102 1 102 1 1

原创 CentOS7安裝MySQL、修改密碼、設置開機自啓(自己踩坑後嘗試出來的安裝方式,在兩臺機器上都試過,沒有問題)

本篇文章有三大內容:安裝、設置root密碼、設置開機自啓,概述如下: 通過下載清華鏡像,yum方式安裝; 先設置跳過密碼驗證再修改root密碼; Centos7設置開機自啓的方式 可能不完全正規,但至少能解決問題。本人嘗試的兩

原创 IDEA填坑_JavaWeb_Maven引入了包,執行時還報錯,找不到依賴

本人的經歷:在web 項目中,pom 新增maven 依賴後,編碼時沒有任何問題,但是運行時卻報ClassNotFoundException 的錯誤。可能的原因在於Artifact 沒有更新。如果您也是這種情況,強烈建議參考本文;

原创 HBase_HBase從介紹到Java客戶端開發

文章目錄HBase入門認識HBase介紹HBaseHBase架構RegionServer集羣結構HBase邏輯存儲結構HBase物理存儲結構HBase安裝前期準備HBase安裝步驟Hbase啓動HBase驗證備份masterHBa

原创 大數據什錦_ORC&PARQUET_按列存儲_Columnar VS Row-based

文章目錄概述Columnar VS Row-basedORC和PARQUETORCParquet實驗準備創建數據庫創建表和加載數據比較表的大小存儲格式+壓縮ORCPARQUET 概述 本文通過使用Hadoop的數據倉庫工具Hive

原创 Hadoop集羣雜項_時間同步

文章目錄方法概括具體步驟1. 時間服務器(root)(1)檢查ntp是否安裝(2)修改ntp配置文件(3)啓動並且配置開機時啓動(4)更新本地時間(5)查看本地硬件時鐘時間,並進行更新(6)硬件時鐘時間同步給系統時間(7)自動同步

原创 Hive_Hive企業使用高級優化/調優

文章目錄概述FetchTask[→](#toc)爲大表創建子表[→](#toc)外部表和分區表[→](#toc)外部表分區表注意數據[→](#toc)Join優化[→](#toc)分類Common/Shuffle/Reduce

原创 圖數據庫_Neo4j簡單的JavaAPI案例

 入門Neo4j,在官網案例的基礎上添加了兩個方法,下文程序的功能分別是:獲取圖數據庫連接驅動、往標籤添加節點、打印節點信息、獲取所有節點數據、獲取節點和關係、關閉連接。  執行以下程序需要的lib,分別是Neo4j安裝包下的li

原创 圖數據庫_Cypher語法大全

點贊 收藏 分享 文章舉報 pomelorange 發佈了9 篇原創文章 · 獲贊 6 · 訪問量 2374 私信

原创 Hive_基於Hive的網站日誌分析

文章目錄概述1. 引出需要進行數據預處理的必要性[→](#toc)2. 使用RegexSerDe處理apache或者ngnix日誌文件[→](#toc)3. 根據不同業務拆表[→](#toc)3.1 需求分析3.2 拆表4. 數