原创 22HIVE的分區分桶——好程序

爲什麼要分區? 隨着系統運行時間增長,表的數據量越來越大,而hive查詢通常是全表掃描,這樣會導致大量不必要的數據掃描,從而大大降低了查詢效率。 從而引進了分區技術,使用分區技術,避免hive全表掃描,提升查詢效率。 分區的技術 PART

原创 06hadoop基礎架構——好程序

hadoop是什麼 apache hadoop是apache旗下的一套開源的軟件平臺。 hadoop是一套高可靠的、可擴展的、分佈式的計算開源軟件。hadoop軟件庫是一個框架,使用簡單的編程模型跨計算機集羣分佈式處理大型的數據集(海量數

原创 28hbase的內部機制&存儲機制&尋址機制——好程序

hbase的內部機制--存儲機制-region概念-store概念-memstore概念 hbase的物理存儲方式     Hbase是一個集羣,master在數據管理裏面是沒有任何功能的,表在hbase裏面存儲,每一個regionse

原创 18mapreduce的案例加強——好程序

流量統計 1363157985066     13726230503    00-FD-07-A4-72-B8:CMCC    120.196.100.82    i02.c.aliimg.com      24    27    24

原创 29hbase&hive&hdfs——好程序

如果不是高可用,是不需要這些的 mr和hbase的結合 TableMapper TableReducer TableMapReduceUtil 出錯:Caused by: java.lang.ClassNotFoundException

原创 25Hbase理論基礎——好程序

爲什麼要hbase 隨着數據量越來越大,傳統的關係型數據庫不能滿足需求,hive雖然能夠滿足存儲,但是不滿足非結構化的存儲和高效的查詢。 hbase是什麼 hbase是一個開源的、分佈式的、可擴展的、多版本的非關係型數據庫。not-onl

原创 14mapreduce的流程說明&實現Mapper類&實現Driver以及測試運行——好程序

  mapreduce核心名詞 job:用戶的一個計算請求稱爲一個作業。 task:每一個作業,都需要分拆成多個的task,交由多個主機來完成,拆分出來的執行單元就叫任務。 task又分爲3種類型: map:負責map階段的整個的數據處理

原创 24HIve的Struct與優化

struct:可以放數組 create table if not exists str1( name string, addr struct<province:string,city:string,street:string> ) ro

原创 15hadoopHA——好程序

下面這個就是yarn的高可用,ResourceManager可以有無數個   日記的管理方式發生了改變——單個namenode的模式,日記文件是直接寫到namenode裏面就可以了。現在要實現的是高可用的模式,高可用就需要兩臺namen

原创 Caused by: java.lang.NoClassDefFoundError: org/apache/flink/runtime/minicluster/JobExecutorService

E:\toolbox\JDK\jdk1.8.0_121\bin\java -javaagent:E:\toolbox\IDEA\ideaIC-2017\lib\idea_rt.jar=62348:E:\toolbox\IDEA\ideaI

原创 Linux下SparkSubmit提交任務後,運行一會,訪問網站後,拋出異常

------------------------------------------- Time: 1591750745000 ms ------------------------------------------- 192.168.

原创 IDEA修改緩存配置目錄&maven目錄

在IDEA安裝包、或者解壓包的bin目錄下,找到idea.properties 現在進行修改   開啓IDEA,如果有項目先關閉項目 然後修改maven目錄        

原创 Permission denied沒有權限

scp: /etc/profile: Permission denied 執行scp分發命令,提示沒有權限, 進入到slave2 的etc下面,ll查看,發現連root 用戶都是沒有x 權限   然後看到了這段https://blog

原创 Linux,centos6.8上Mysql5.7的安裝2

1、創建一個文件夾 2、將安裝包拉到主節點下,在通過scp命令將其進行拷貝到slave1 sudo scp MySQL-5.6.26-1.linux_glibc2.5.x86_64.rpm-bundle.tar root@slave1

原创 Hadoop集羣安裝配置——2

在進行配置前,需要完成以下幾項 1、可以製作本地yarn源    03Linux上常用的軟件安裝——好程序 2、克隆子節點        (修改ip uuid mac 主機名  slaves的主從節點)