台部落就问你吃不吃药

Spark的執行模型我們遇到的大多數必須處理的問題需要先理解代碼的執行環境。Spark作業是在分佈式數據集上執行並行操作的驅動程序。爲了解決問題需要理解代碼的不同部分在哪裏運行。下面是官網的WordCount例子： file

2020-02-21 19:17:19

1 編寫UDF類編寫自定義函數需要繼承'org.apache.hadoop.hive.ql.exec.UDF'類，可以通過Maven添加，pom文件中加入（版本號和當前Hive一致即可）： <dependency> <gr

2020-02-21 19:17:19

之前提到parquet.block.size所控制的parquet row group大小是一個需要調優的spark參數。其中重要一點，就是控制任務的併發度。在Hadoop裏，任務的併發默認是以hdfs block爲單位的，而

2020-02-21 19:17:19

編譯如下代碼時 val rdd : RDD[People]= sparkSession.sparkContext.textFile(hdfsFile,2).map(line => line.split(",")).map(arr

2020-02-21 19:17:19

HAProxy簡介（1）HAProxy是一款提供高可用性、負載均衡以及基於TCP（第四層）和HTTP（第七層）應用的代理軟件，支持虛擬主機，它是免費、快速並且可靠的一種解決方案。HAProxy特別適用於哪些負載特別大的web站點

2020-02-21 19:17:19

前言在日常Java開發中，我們經常碰到java.lang.NoClassDefFoundError這樣的錯誤，需要花費很多時間去找錯誤的原因，具體是哪個類不見了？類明明還在，爲什麼找不到？而且我們很容易把java.lang.No

2020-02-21 19:17:19

一、背景 1、在Hive Select查詢中一般會掃描整個表內容，會消耗很多時間做沒必要的工作。有時候只需要掃描表中關心的一部分數據，因此建表時引入了partition概念。 2、分區表指的是在創建表時指定的partition的

2020-02-21 19:17:19

Spark SQL前身是Shark，由於Shark對於Hive的太多依賴制約了Spark的發展，Spark SQL由此產生。 Spark SQL只要在編譯的時候引入Hive支持，就可以支持Hive表訪問，UDF，SerDe，以

2020-02-21 19:17:19

GitLab基本介紹 GitLab是利用Ruby on Rails一個開源的版本管理系統，實現一個自託管的Git項目倉庫，可通過Web界面進行訪問公開的或者私人項目。與Github類似，GitLab能夠瀏覽源代碼，管理缺陷和註

2020-02-21 19:17:19

入坑系列之HAProxy負載均衡在大型系統設計中用代理在負載均衡是最常見的一種方式，而相對靠譜的解決方案中Nginx、HAProxy、LVS、F5在各大場中用得比較普遍，各有各的優勢和使用場景，由於本次要使用到TCP，因此Ngi

2020-02-21 19:17:19

使用spark sql的thrift jdbc接口查詢數據時報這個錯誤 Exception in thread "main" java.sql.SQLException: org.apache.spark.SparkExcepti

2020-02-21 19:17:19

parquet的配置主要包括： parquet.compression parquet.block.size parquet.page.size 等，詳見： https://github.com/Parquet/parq

2020-02-21 19:17:19

基本操作創建文本 $>cat test.txt 輸入文本數據 12,23,23,34 what,are,this 34,45,34,23,12 who,am,i,are 打開Hive，創建表 hive>

2020-02-21 19:17:19

1.in 不支持子查詢 eg. select * from src where key in(select key from test); 支持查詢個數 eg. select * from src where key in(1,2

2020-02-21 19:17:18

PP Hadoop Yarn同事支持內存和CPU兩種資源的調度，本文介紹如何配置YARN對內存和CPU的使用。 Yarn作爲一個資源調度器，應該考慮到集羣裏面每一臺機子的計算資源，然後根據application申請的資源進行分配

2020-02-21 19:17:18