台部落iteye

這次我們以指定executor-memory參數的方式來啓動spark-shell：啓動成功了在命令行中我們指定了spark-shell運行暫用的每個機器上的executor的內存爲1g大小，啓動成功後參看web頁面：

2020-06-22 09:26:01

本節中所用到的內容是來自搜狗實驗室，網址爲：http://www.sogou.com/labs/dl/q.html 我們使用的是迷你版本的tar.gz格式的文件，其大小爲87K，下載後如下所示：上傳到服務器後，解壓並查看：

2020-06-22 09:26:01

首先創建SparkContext上下文：接着引入隱身轉換，用於把RDD轉成SchemaRDD: 接下來定義一個case class 來用於描述和存儲SQL表中的每一行數據：接下來要加載數據，這裏的測試數據是user.txt文件

2020-06-22 09:26:01

創建一個Scala IDEA工程：點擊“Next”：點擊“Finish”完成工程的創建：修改項目的屬性：首先修改Modules選項：在src下創建兩個文件夾，並把其屬性改爲source：再修改Librar

2020-06-22 09:26:00

1、下載路徑爲：http://mirrors.cnnic.cn/apache/zookeeper/stable/ 2、安裝：第一步解壓zookeeper壓縮包：進入 zookeeper安裝目錄第二步創建一個data目錄：

2020-06-22 09:26:00

隨着Spark的逐漸成熟完善, 越來越多的可配置參數被添加到Spark中來, 本文試圖通過闡述這其中部分參數的工作原理和配置思路, 和大家一起探討一下如何根據實際場合對Spark進行配置優化。由於篇幅較長，所以在這裏分篇組織，如果

2020-06-22 09:26:00

個人微信公衆號，每天推送一篇高質量文章，喜歡的就訂閱吧

2020-06-22 09:26:00

從前一篇文章中的wordcount的輸出結果可以看出來結果是未經排序的，如何對spark的輸出結果進行排序呢？先對reduceByKey的結果進行key,value位置置換（數字，字符），然後再進行數字排序，再將key，value位

2020-02-21 06:39:18

我們在hdfs的/data/join創建兩個文件：上傳第一個文件名稱爲1.txt 內容第一列是日期，第二列uid(普通用戶id) 上傳第二個文件名稱爲2.txt 內容第一列是日期，第二列uid(普通用戶id) 執行上傳到hd

2020-02-21 06:39:18

1.臨時修改主機名顯示主機名：spark@master:~$ hostnamemaster修改主機名：spark@master:~$ sudo hostname hadoopspark@master:~$ hostnamehad

2020-02-21 06:39:18

操作HDFS：先要保證HDFS啓動了：啓動spark集羣：以spark-shell運行在spark集羣上：查看下之前上傳到HDFS上的”LICENSE.txt“文件：用spark讀取這個文件：使用count統計該

2020-02-21 06:39:18

作者Michael G. Noll是瑞士的一位工程師和研究員，效力於Verisign，是Verisign實驗室的大規模數據分析基礎設施（基礎Hadoop）的技術主管。本文，Michael詳細的演示瞭如何將Kafka整合到Spark St

2020-02-21 06:39:18

.tar解包：tar xvf FileName.tar打包：tar cvf FileName.tar DirName（注：tar是打包，不是壓縮！）———————————————.gz解壓1：gunzip FileName.gz解壓2：

2020-02-21 06:39:18

由於個人需要在自己的筆記本上搭建hadoop僞分佈環境，爲了方便自己使用，如想看機器也看之前的一篇博客：hadoop2.6.0版本集羣環境搭建一臺虛擬機，配置信息如下：內存：1G，cpu：一個core,硬盤：15G 1、修改下主機

2020-02-21 06:39:18

最近一個羣友的boss讓研究hbase，讓hbase的入庫速度達到5w+/s，這可愁死了，4臺個人電腦組成的集羣，多線程入庫調了好久，速度也才1w左右，都沒有達到理想的那種速度，然後就想到了這種方式，但是網上多是用mapreduce來實

2020-02-21 06:39:18