原创 Spark性能優化:數據傾斜調優

前言    繼《Spark性能優化:開發調優篇》和《Spark性能優化:資源調優篇》講解了每個Spark開發人員都必須熟知的開發調優與資源調優之後,本文作爲《Spark性能優化指南》的高級篇,將深入分析數據傾斜調優與shuffle調

原创 Apache Spark Jobs 性能調優(一)

當你開始編寫 Apache Spark 代碼或者瀏覽公開的 API 的時候,你會遇到各種各樣術語,比如 transformation,action,RDD 等等。 瞭解到這些是編寫 Spark 代碼的基礎。 同樣,當你任務開始失敗或者你需

原创 Apache Spark Jobs 性能調優(二)

在這篇文章中,首先完成在Part I 中提到的一些東西。作者將盡量覆蓋到影響 Spark 程序性能的方方面面,你們將會瞭解到資源調優,或者如何配置 Spark 以壓榨出集羣每一分資源。然後我們將講述調試併發度,這是job性能中最難也是

原创 決策樹基礎篇原理介紹(二)

決策樹構建    上篇文章也粗略提到過,構建決策樹的算法有很多。篇幅原因,本篇文章只使用ID3算法構建決策樹。ID3算法    ID3算法的核心是在決策樹各個結點上對應信息增益準則選擇特徵,遞歸地構建決策樹。具體方法是:從根結點(root

原创 決策樹基礎篇原理介紹(一)

決策樹    決策樹是什麼?決策樹(decision tree)是一種基本的分類與迴歸方法。舉個通俗易懂的例子,如下圖所示的流程圖就是一個決策樹,長方形代表判斷模塊(decision block),橢圓形成代表終止模塊(terminati

原创 sparkSQL1.1入門之九:sparkSQL之調優

spark是一個快速的內存計算框架;同時是一個並行運算的框架。在計算性能調優的時候,除了要考慮廣爲人知的木桶原理外,還要考慮 平行運算的 Amdahl定理。       木桶原理又稱短板理論,其核心思想是:一隻木桶盛水的多少,並不取決於

原创 Spark要點

Spark要點: 內存計算,DAG; RDD:Resilient Distributed Dataset    彈性分佈式數據集 RDD可以基於工作集應用 RDD特徵:有很多partition(數據分片),並行度從上一個RDD繼承

原创 用python做數據分析pandas庫介紹之兩種數據結構Series和DataFrame

(1)SeriesSeries是一種類似與一維數組的對象,它由一組數據以及一組與之相關的數據便籤(即索引)組成,僅由一組數據即可產生最簡單的Series。例如:a=Series([9,-3,4,2]) 得到的結果爲: 0 9 1

原创 樸素貝葉斯基礎篇(四)

樸素貝葉斯算法是有監督的學習算法,解決的是分類問題,如客戶是否流失、是否值得投資、信用等級評定等多分類問題。該算法的優點在於簡單易懂、學習效率高、在某些領域的分類問題中能夠與決策樹、神經網絡相媲美。但由於該算法以自變量之間的獨立(條件特徵

原创 簡單k-近鄰算法原理(三)

k近鄰法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一種基本分類與迴歸方法。它的工作原理是:存在一個樣本數據集合,也稱作爲訓練樣本集,並且樣本集中每個數據都存在標籤,即我們知道樣本集

原创 Spark技術內幕:Executor分配詳解

當用戶應用new SparkContext後,集羣就會爲在Worker上分配executor,那麼這個過程是什麼呢?本文以Standalone的Cluster爲例,詳細的闡述這個過程。序列圖如下: 1. SparkContext創

原创 Spark的性能調優(1)

下面這些關於Spark的性能調優項,有的是來自官方的,有的是來自別的的工程師,有的則是我自己總結的。 基本概念和原則       首先,要搞清楚Spark的幾個基本概念和原則,否則系統的性能調優無從談起:       每一臺ho

原创 wordcount詳解shuffle機制

 最近在學習Hadoop,寫過了一些小的程序,但是一直沒弄明白mapreduce的實現原理。找了好多有關的博客和資料,他們都是從很底層的實現過程來講解shuffle的,對於初學者來講並不是適合學習的材料,因爲那些概念都太抽象,再加上從單

原创 hadoop 的MapReduce原理與心得!!!

 mapreduce是hadoop的核心組成,是專門用於數據計算。主要掌握 map、reduce 函數的特點、如何寫函數。 我的開發環境是在eclipse,運行程序的時候經常會出現 java 內存不足的情況,需要修改ecplise的j

原创 『 Spark 』10. spark 應用程序性能優化|12 個優化方法

原文:http://litaotao.github.io/boost-Spark-application-performance 本系列是綜合了自己在學習spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實踐spar