原创 Kafka 基本使用

1、Kafka是什麼l Apache Kafka是一個開源消息系統,由Scala寫成。是由Apache軟件基金會開發的一個開源消息系統項目。l Kafka最初是由LinkedIn開發,並於2011年初開源。2012年10月從ApacheI

原创 Spark 集羣安裝

3、Spark集羣安裝3.1、安裝3.1.1、機器部署準備兩臺以上Linux服務器,安裝好JDK1.73.1.2、下載Spark安裝包  http://www.apache.org/dyn/closer.lua/spark/spark-1

原创 Kafka 簡介

問題: 集羣角色 副本 leader選舉 數據存儲 通過offset查找message toptic 分區 集羣消費 集羣角色 每個分區有一個爲leader,其他都爲follower,leader處理partition的所有

原创 Java兼職工作

我的優勢: 從事java開發6年,主要做過電商、借貸,理財、大數據等產品開發。希望找一份後端開發兼職工作。 本人現在工作時間是早9點至晚5點,週末雙休,其它空閒時間可以進行兼職工作開發。常用技術spring mv

原创 vuePreee 部署技術文檔

mkdir api-doc cd api-doc npm install -D vuepress mkdir docs npx vuepress dev docs #生成 package.json npm init -y #添加

原创 java 大數據兼職開發

我的優勢:             從事java開發3年,主要做過數據分析、電商、借貸,理財等產品開發。希望找一份後端開發兼職工作。 本人現在工作時間是早10點至晚6點,週末雙休,其它空閒時間可以進行兼職工作開發。常用技術spring m

原创 Hadoop Yarn 框架原理及運作機制

1.1 YARN 基本架構YARN是Hadoop 2.0中的資源管理系統,它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務:一個全局的資源管理器ResourceManager和每個應用程序特有的Applicati

原创 redis 學習筆記

一、redis學習 01/ nosql介紹 NoSQL:一類新出現的數據庫(not only sql),它的特點:1、 不支持SQL語法2、 存儲結構跟傳統關係型數據庫中的那種關係表完全不同,nosql中存儲的數據都是KV形式3、 NoS

原创 使用git rebase合併多次commit

轉自:https://blog.csdn.net/yangcs2009/article/details/471663611.首先使用git log查看一下提交歷史[plain] view plain copy[demo@ubuntu120

原创 scala lazy關鍵字

scala lazy 加載、 模式匹配case實例lazy 賴加載 Scala中使用關鍵字lazy來定義惰性變量,實現延遲加載(懶加載)。 惰性變量只能是不可變變量,並且只有在調用惰性變量時,纔會去實例化這個變量。我們看一下spark源碼

原创 hdfs詳解

******HDFS基本概念篇******1. HDFS前言l 設計思想分而治之:將大文件、大批量文件,分佈式存放在大量服務器上,以便於採取分而治之的方式對海量數據進行運算分析; l 在大數據系統中作用:爲各類分佈式運算框架(如:mapr

原创 shell編程

01/ linux操作增強1.1 防火牆配置防火牆根據配置文件/etc/sysconfig/iptables來控制本機的“出、入”網絡訪問行爲其對行爲的配置策略有四個策略表 1.1.1 必備技能查看防火牆狀態 service iptabl

原创 豆瓣爬蟲:根據tag 爬書籍,實現urllib、BeautifulSoup、導出excel

豆瓣爬蟲:根據tag 爬書籍,實現urllib、BeautifulSoup、導出excelimport time import urllib import urllib.parse import numpy as np from bs4

原创 Spark性能優化指南

Spark性能優化指南——基礎篇李雪蕤 ·2016-04-29 14:00前言在大數據計算領域,Spark已經成爲了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學