原创 hive複習日記-持續更新

hive 一、 概念 1.hive是一個構建在hadoop上的數據倉庫管理工具(框架),可以將結構化數據文件映射成一張數據表,並使用類sql的方式對這樣的文件進行操作。 hive的執行引擎 可以是 mapreduce spark

原创 redis工具類-即拿即用

連接redis集羣: package com.ssq.dmp.utils.jedis; import redis.clients.jedis.*; import java.io.IOException; import java

原创 星型模型和雪花模型模型

表與表之間的關係 星型模型: 雪花模型:事實表關聯了維度表,但是維度表關聯了其他的表(國家,省市)。 維表是規範化的,減少冗餘,易於維護,節省存儲空間 但是實際與巨大的事實表相比,這種空間的節省是相當小的,可以忽略。由於執行查詢需

原创 推薦系統學習(一)

推薦系統的學習: 分類: 根據實時性: 離線推薦 實時推薦 根據是否個性化分類: 基於統計的推薦 個性化推薦 根據推薦原則分類: 基於相似度的推薦 基於知識的推薦/基於規則的推薦 基於模型的推薦/基於機器的推薦 根據數據源分類:

原创 HashMap的特點和底層原理學習

HashMap與HashTable在底層實現基本是一樣的,只是hashtable的方法加了synchronized關鍵字。 ConCurrentHashMap是線程安全的,但性能比hashTable好很多,因爲HashTable是

原创 大數據文件格式簡單介紹

大數據文件格式:parquet(column)、 Avro(Row)、 ORC(column) 相同點: 基於hadoop文件系統優化出的存儲結構 提供高效的壓縮 二進制存儲格式 文件可分割 使用schema進行自我描述 列式存

原创 flume學習日記

Flume 優點: 可以和任意存儲進程集成。 輸入的的數據速率大於寫入目的存儲的速率,flume會進行緩衝,減小hdfs的壓力。 flume中的事務基於channel,使用了兩個事務模型(sender + receiver),確

原创 反爬蟲監控系統-實現思路

反爬蟲監控系統 思路: 數據源 nginx 獲取客戶端的請求 lua腳本收集nginx獲取的請求的數據推送到kafka(ps:lua腳本在收集數據時採用’$CS#'進行拼接) 數據處理模塊: 數據處理 數據切分:獲取kafk

原创 kafka原理學習

kafka:分佈式,支持分區,多副本的,基於zk協調的分佈式消息系統。 特性:高吞吐,低延遲 每秒可以處理幾十萬條消息 延遲級別在毫秒級。每個topic可以分爲多個partition,consumer group 可以對parti

原创 hdfs學習筆記

Hadoop總結 一、hadoop概述 1.谷歌的三篇論文:《bigtable》 《GFS》 《Mapreduce》 2.hadoop是一個分佈式存儲和分析計算框架 3.hadoop組成部分: 1)hadoop common

原创 SparkStreaming的學習(一)

SparkStreaming 1.DStream 1.離散化流,與SPark的RDD相似,都是一種數據抽象。 2.DStream是隨時間推移而收到的數據的序列 3.DStream是由多個RDD組成的序列 2.架構(微批次) [外

原创 GeoHash算法的學習

一、簡介 將二維的經度緯度轉化成字符串 字符串越長代表的精度越高 5位的編碼能表示10平方千米,而6位的編碼約0.34平方千米 字符串的相似表示距離的遠近。 查詢指定位置的附近的商店等,只需要將所在位置的經緯度轉化爲geoh

原创 spark的緩存級別介紹

Spark的cache、persist以及緩存級別講解: 當一個RDD被多次用到的時候。通過cache可以將RDD持久化到磁盤或者內存。cache屬於transformation cache的底層調用了perist() cache

原创 Fabric網絡部署問題

ERR:plugin with name escc wasn’t found 在部署多機solo網絡時,在進行鏈碼實例化時報錯:plugin with name escc wasn't found 是因爲系統鏈碼找不到,pee

原创 sparkcore和sparkSql學習

sparkcore:基本數據抽象是rdd RDD:彈性分佈式數據集 分佈存儲,分散在各個節點上,便於並行對RDD的數據進行並行計算 特點: 1.RDD是隻可讀的,一旦生成,內容就無法修改 2.RDD可以指定緩存在內存中。一般