原创 Spark相關問題的故障排除

Spark的執行模型 我們遇到的大多數必須處理的問題需要先理解代碼的執行環境。Spark作業是在分佈式數據集上執行並行操作的驅動程序。爲了解決問題需要理解代碼的不同部分在哪裏運行。 下面是官網的WordCount例子: file

原创 Hive自定義UDF函數

1 編寫UDF類 編寫自定義函數需要繼承'org.apache.hadoop.hive.ql.exec.UDF'類,可以通過Maven添加,pom文件中加入(版本號和當前Hive一致即可): <dependency> <gr

原创 Spark+Parquet分片規則

之前提到parquet.block.size所控制的parquet row group大小是一個需要調優的spark參數。其中重要一點,就是控制任務的併發度。 在Hadoop裏,任務的併發默認是以hdfs block爲單位的,而

原创 解決value toDF is not a member of org.apache.spark.rdd.RDD[People]

編譯如下代碼時 val rdd : RDD[People]= sparkSession.sparkContext.textFile(hdfsFile,2).map(line => line.split(",")).map(arr

原创 HAProxy介紹

HAProxy簡介 (1)HAProxy是一款提供高可用性、負載均衡以及基於TCP(第四層)和HTTP(第七層)應用的代理軟件,支持虛擬主機,它是免費、快速並且可靠的一種解決方案。HAProxy特別適用於哪些負載特別大的web站點

原创 怎麼解決java.lang.NoClassDefFoundError錯誤

前言 在日常Java開發中,我們經常碰到java.lang.NoClassDefFoundError這樣的錯誤,需要花費很多時間去找錯誤的原因,具體是哪個類不見了?類明明還在,爲什麼找不到?而且我們很容易把java.lang.No

原创 hive分區(partition)簡介

一、背景 1、在Hive Select查詢中一般會掃描整個表內容,會消耗很多時間做沒必要的工作。有時候只需要掃描表中關心的一部分數據,因此建表時引入了partition概念。 2、分區表指的是在創建表時指定的partition的

原创 Spark SQL簡單操作演示(含導出表)

Spark SQL前身 是Shark,由於Shark對於Hive的太多依賴制約了Spark的發展,Spark SQL由此產生。 Spark SQL只要在編譯的時候引入Hive支持,就可以支持Hive表訪問,UDF,SerDe,以

原创 GitLab的安裝及使用教程

GitLab基本介紹 GitLab是利用Ruby on Rails一個開源的版本管理系統,實現一個自託管的Git項目倉庫,可通過Web界面進行訪問公開的或者私人項目。 與Github類似,GitLab能夠瀏覽源代碼,管理缺陷和註

原创 HAProxy安裝使用和配置

入坑系列之HAProxy負載均衡 在大型系統設計中用代理在負載均衡是最常見的一種方式,而相對靠譜的解決方案中Nginx、HAProxy、LVS、F5在各大場中用得比較普遍,各有各的優勢和使用場景,由於本次要使用到TCP,因此Ngi

原创 spark解決org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow

使用spark sql的thrift jdbc接口查詢數據時報這個錯誤 Exception in thread "main" java.sql.SQLException: org.apache.spark.SparkExcepti

原创 Hive Parquet配置

parquet的配置主要包括: parquet.compression parquet.block.size parquet.page.size 等,詳見: https://github.com/Parquet/parq

原创 Hive中數組的使用

基本操作 創建文本 $>cat test.txt 輸入文本數據 12,23,23,34 what,are,this 34,45,34,23,12 who,am,i,are 打開Hive,創建表 hive>

原创 SparkSQL相關語句總結

1.in 不支持子查詢 eg. select * from src where key in(select key from test); 支持查詢個數 eg. select * from src where key in(1,2

原创 Yarn的Memory和CPU調優配置詳解

PP Hadoop Yarn同事支持內存和CPU兩種資源的調度,本文介紹如何配置YARN對內存和CPU的使用。 Yarn作爲一個資源調度器,應該考慮到集羣裏面每一臺機子的計算資源,然後根據application申請的資源進行分配