台部落孙拾柒

hive 一、概念 1.hive是一個構建在hadoop上的數據倉庫管理工具（框架），可以將結構化數據文件映射成一張數據表，並使用類sql的方式對這樣的文件進行操作。 hive的執行引擎可以是 mapreduce spark

2020-07-03 19:13:08

連接redis集羣： package com.ssq.dmp.utils.jedis; import redis.clients.jedis.*; import java.io.IOException; import java

2020-07-03 19:13:08

表與表之間的關係星型模型：雪花模型：事實表關聯了維度表，但是維度表關聯了其他的表(國家，省市)。維表是規範化的，減少冗餘，易於維護，節省存儲空間但是實際與巨大的事實表相比，這種空間的節省是相當小的，可以忽略。由於執行查詢需

2020-07-03 19:13:08

推薦系統的學習：分類：根據實時性：離線推薦實時推薦根據是否個性化分類：基於統計的推薦個性化推薦根據推薦原則分類：基於相似度的推薦基於知識的推薦/基於規則的推薦基於模型的推薦/基於機器的推薦根據數據源分類：

2020-07-03 19:13:08

HashMap與HashTable在底層實現基本是一樣的，只是hashtable的方法加了synchronized關鍵字。 ConCurrentHashMap是線程安全的，但性能比hashTable好很多，因爲HashTable是

2020-07-03 19:13:08

大數據文件格式：parquet(column)、 Avro(Row)、 ORC(column) 相同點: 基於hadoop文件系統優化出的存儲結構提供高效的壓縮二進制存儲格式文件可分割使用schema進行自我描述列式存

2020-07-03 19:13:08

Flume 優點：可以和任意存儲進程集成。輸入的的數據速率大於寫入目的存儲的速率，flume會進行緩衝，減小hdfs的壓力。 flume中的事務基於channel，使用了兩個事務模型（sender + receiver），確

2020-07-03 19:13:08

反爬蟲監控系統思路：數據源 nginx 獲取客戶端的請求 lua腳本收集nginx獲取的請求的數據推送到kafka(ps:lua腳本在收集數據時採用’$CS#'進行拼接) 數據處理模塊：數據處理數據切分：獲取kafk

2020-07-03 19:13:08

kafka：分佈式，支持分區，多副本的，基於zk協調的分佈式消息系統。特性：高吞吐，低延遲每秒可以處理幾十萬條消息延遲級別在毫秒級。每個topic可以分爲多個partition,consumer group 可以對parti

2020-07-03 19:13:08

Hadoop總結一、hadoop概述 1.谷歌的三篇論文：《bigtable》《GFS》《Mapreduce》 2.hadoop是一個分佈式存儲和分析計算框架 3.hadoop組成部分： 1）hadoop common

2020-07-03 19:13:08

SparkStreaming 1.DStream 1.離散化流，與SPark的RDD相似，都是一種數據抽象。 2.DStream是隨時間推移而收到的數據的序列 3.DStream是由多個RDD組成的序列 2.架構(微批次) [外

2020-07-03 19:13:08

一、簡介將二維的經度緯度轉化成字符串字符串越長代表的精度越高 5位的編碼能表示10平方千米，而6位的編碼約0.34平方千米字符串的相似表示距離的遠近。查詢指定位置的附近的商店等，只需要將所在位置的經緯度轉化爲geoh

2020-07-03 19:13:08

Spark的cache、persist以及緩存級別講解：當一個RDD被多次用到的時候。通過cache可以將RDD持久化到磁盤或者內存。cache屬於transformation cache的底層調用了perist() cache

2020-07-03 19:13:08

ERR：plugin with name escc wasn’t found 在部署多機solo網絡時，在進行鏈碼實例化時報錯：plugin with name escc wasn't found 是因爲系統鏈碼找不到，pee

2020-07-03 19:13:08

sparkcore:基本數據抽象是rdd RDD:彈性分佈式數據集分佈存儲，分散在各個節點上，便於並行對RDD的數據進行並行計算特點： 1.RDD是隻可讀的，一旦生成，內容就無法修改 2.RDD可以指定緩存在內存中。一般

2020-03-13 08:08:54