原创 Spark API編程動手實戰-05-spark文件操作和debug

這次 我們以指定executor-memory參數的方式來啓動spark-shell: 啓動成功了   在命令行中我們指定了spark-shell運行暫用的每個機器上的executor的內存爲1g大小,啓動成功後參看web頁面:

原创 Spark API編程動手實戰-06-對搜狗日誌文件深入實戰操作

本節中所用到的內容是來自搜狗實驗室,網址爲:http://www.sogou.com/labs/dl/q.html 我們使用的是迷你版本的tar.gz格式的文件,其大小爲87K,下載後如下所示: 上傳到服務器後,解壓並查看:  

原创 spark SQL編程動手實戰-01

首先創建SparkContext上下文: 接着引入隱身轉換,用於把RDD轉成SchemaRDD: 接下來定義一個case class 來用於描述和存儲SQL表中的每一行數據: 接下來要加載數據,這裏的測試數據是user.txt文件

原创 Spark API編程動手實戰-08-基於IDEA使用Spark API開發Spark程序-01

創建一個Scala IDEA工程: 點擊“Next”: 點擊“Finish”完成工程的創建: 修改項目的屬性:   首先修改Modules選項:   在src下創建兩個文件夾,並把其屬性改爲source: 再修改Librar

原创 zookeeper僞分佈安裝和使用

1、下載路徑爲:http://mirrors.cnnic.cn/apache/zookeeper/stable/ 2、安裝: 第一步 解壓zookeeper壓縮包: 進入 zookeeper安裝目錄 第二步 創建一個data目錄:

原创 Spark 性能相關參數配置詳解-任務調度篇

隨着Spark的逐漸成熟完善, 越來越多的可配置參數被添加到Spark中來, 本文試圖通過闡述這其中部分參數的工作原理和配置思路, 和大家一起探討一下如何根據實際場合對Spark進行配置優化。   由於篇幅較長,所以在這裏分篇組織,如果

原创 個人微信公衆號,每天推送一篇高質量文章

個人微信公衆號,每天推送一篇高質量文章,喜歡的就訂閱吧

原创 Spark API編程動手實戰-03-以在Spark 1.2版本實現對Job輸出結果進行排序

從前一篇文章中的wordcount的輸出結果可以看出來結果是未經排序的,如何對spark的輸出結果進行排序呢? 先對reduceByKey的結果進行key,value位置置換(數字,字符),然後再進行數字排序,再將key,value位

原创 Spark API編程動手實戰-07-join操作深入實戰

我們在hdfs的/data/join創建兩個文件: 上傳第一個文件名稱爲1.txt 內容第一列是日期,第二列uid(普通用戶id)   上傳第二個文件名稱爲2.txt 內容第一列是日期,第二列uid(普通用戶id) 執行上傳到hd

原创 centos修改主機名整理(勿噴)

1.臨時修改主機名   顯示主機名:spark@master:~$ hostnamemaster修改主機名:spark@master:~$ sudo hostname hadoopspark@master:~$ hostnamehad

原创 Spark API編程動手實戰-02-以集羣模式進行Spark API實戰textFile、cache、count

操作HDFS:先要保證HDFS啓動了: 啓動spark集羣: 以spark-shell運行在spark集羣上:   查看下之前上傳到HDFS上的”LICENSE.txt“文件: 用spark讀取這個文件: 使用count統計該

原创 整合Kafka到Spark Streaming——代碼示例和挑戰

作者Michael G. Noll是瑞士的一位工程師和研究員,效力於Verisign,是Verisign實驗室的大規模數據分析基礎設施(基礎Hadoop)的技術主管。本文,Michael詳細的演示瞭如何將Kafka整合到Spark St

原创 Linux下解壓命令大全 解壓縮 tar bz2 zip tar.gz gz

.tar解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是壓縮!)———————————————.gz解壓1:gunzip FileName.gz解壓2:

原创 hadoop2.6.0版本搭建僞分佈式環境

由於個人需要在自己的筆記本上搭建hadoop僞分佈環境,爲了方便自己使用,如想看機器也看之前的一篇博客:hadoop2.6.0版本集羣環境搭建 一臺虛擬機,配置信息如下: 內存:1G,cpu:一個core,硬盤:15G 1、修改下主機

原创 非mapreduce生成Hfile,然後導入hbase當中

最近一個羣友的boss讓研究hbase,讓hbase的入庫速度達到5w+/s,這可愁死了,4臺個人電腦組成的集羣,多線程入庫調了好久,速度也才1w左右,都沒有達到理想的那種速度,然後就想到了這種方式,但是網上多是用mapreduce來實