Spark基礎轉換及行動操作（python實驗）

原創

2018-08-23 06:21

注意：實驗前先引入包from pyspark.context import SparkContext ，還需配置 sc = SparkContext('local', 'test') ，然後才能用sc做操作。

一、常見的轉換操作

1、map() : 將函數應用於RDD中的每個元素，將返回值構成新的RDD

2、flatMap() ：將函數應用於RDD 中的每個元素，將返回的迭代器的所有內容構成新的RDD。通常用來切分單詞（以[1,2,3,4]數據集爲例）

3、filter() ：返回一個由通過傳給filter()的函數的元素組成的RDD

4、distinct() ：去重

5、sample(withReplacement, fraction, [seed]) ：對RDD採樣，以及是否替換（就是隨機取幾個出來，所以每次結果可能不一樣）。

以上是對一個數據集處理，下面是針對兩個以上的數據集

1、union() ：生成一個包含兩個RDD 中所有元素的RDD（是所有，不得去重）

2、intersection() ：求兩個RDD 共同的元素的RDD

3、subtract() ：移除一個RDD 中的內容（例如移除訓練數據）

4、cartesian() ：與另一個RDD 的笛卡兒積

二、常見的行動操作

1、reduce() ：它接收一個函數作爲參數，這個函數要操作兩個RDD 的元素類型的數據並返回一個同樣類型的新元素。

上面例子中，若傳入列表結果爲9；若傳入集合結果爲6，這是因爲python集合會去重了才作爲參數傳入計算。

2、fold() ：它和reduce() 類似，接收一個與reduce() 接收的函數簽名相同的函數，再加上一個“初始值”來作爲每個分區第一次調用時的結果

3、collect() ：返回RDD中的所有元素

注意：使用collect()要求數據不是很大，所有數據都必須能一同放入單臺機器的內存中，常用於單元測試中。

4、count() ：RDD 中的元素個數

5、countByValue()：各元素在RDD 中出現的次數

實驗得知，python返回的是一個字典，通過鍵可以獲取對應次數。

6、take(num) ：從RDD中返回num個元素

7、top(num) ：從RDD中返回最前面的num個元素

8、takeOrdered(num)：函數用於從RDD中，按照默認（降序）或者指定的排序規則，返回前num個元素。

9、takeSample(withReplacement, num, [seed])：從RDD中返回任意一些元素

10、aggregate(zeroValue)(seqOp, combOp)：和reduce() 相似，但是通常返回不同類型的函數

11、foreach(func)：對RDD中的每個元素使用給定的函數

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

iNeuOS工業互聯網操作系統，增加電力IEC104協議

1. 概述... 2 2. 配置IEC104協議設備驅動... 2 1. 概述　　IEC60870-5-104 是一種電力自動化系統中常用的通信協議，使用 TCP/IP 協議作爲底層通信協議，用於監視和控制電

唯笑志在-ineuos.net

2024-05-29 14:29:22

【Mac】前後端分離項目（springboot + vue）用nginx部署

步驟 npm run build 把項目打包到dist目錄下。新建vue.config.js const { defineConfig } = require('@vue/cli-service') module.exports = d

金大鑫要堅持

2024-05-29 14:27:52

圖牀PicGo

https://github.com/Molunerfinn/PicGo https://github.com/Molunerfinn/PicGo

2024-05-29 14:25:52

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

自託管模式運行dapr 新建訂閱webapi項目,取名爲backend 項目增加docker支持，取消https支持修改Program.cs var builder = WebApplication.CreateBuilder(args)

2024-05-29 14:25:52

編程循環（2024-5-29）

找了下go的介紹，看了一下爲什麼處理併發好。有小線程和通道。小線程是在線程的基礎上，go自己維護的線程，減少線程切換的開銷和更靈活分配空間。通道可以在線程之間通訊，是個先進先出的管道，大概是收到數據就觸發繼續執行，就像等待系統輸入一樣

2024-05-29 14:24:02

向量數據庫HNSW算法

向量數據庫構建好embedding後，需要通過相關算法進行檢索，它常用到的相似性搜索算法有HNSW，HNSW算法是NSW算法改進而來,它是屬於ANN算法中不同類別的圖類別中的一種。節點與節點之間的連接方式可以形成3類圖：正則圖，隨

人不瘋狂枉一生

2024-05-29 14:23:51

一個 .NET 開源的地圖組件庫 - Mapsui

前言今天大姚給大家分享一個.NET開源（MIT License）、免費、同時支持多平臺框架（MAUI、WPF、Avalonia、Uno、Blazor、WinUI、Eto、.NET Android 和 .NET iOS）地圖組件庫：Maps

2024-05-29 14:22:51

Windows下的mysql安裝(解壓版)

Windows 安裝並配置 MySQL 5.6_mysql 5.6 安裝-CSDN博客

2024-05-29 14:22:31

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

目前 AI 繪畫領域的產品非常多，比如 Midjourney、Dalle3、Stability AI 等等，這些產品大體上可以分爲兩類：模型與產品深度融合：比如 Midjourney、Dalle3 等等。模型與產品分離：比如 SD W

米開朗基楊

2024-05-29 14:22:21

huggingface 下載與訓練模型時會報 SSLERROR 連接錯誤，解決辦法如下

我用方案一解決解決方案方案1：使用代理（需要梯子）在你的 Python 代碼的開頭加上如下代碼 import os os.environ['HTTP_PROXY'] = 'http://proxy_ip_address:port'

2024-05-29 14:19:51

（三）SQL基礎-設置主鍵爲自增序列

一、如何設置主鍵爲自增標誌注意：這個設置必須要在創建表之前設置好，不然會報錯無法修改。

代號六零一

2024-05-29 14:18:10

《最新出爐》系列入門篇-Python+Playwright自動化測試-49-Route類攔截修改請求-下篇

1.簡介在日常工作和學習中，自動化測試的時候：在加載頁面時，可能頁面出現很多不是很重要或者不是我們所關注的，這個時候我們就可以選擇不加載這些內容，以提高頁面加載速度，節省資源。例如：可能頁面上圖片比較多，而我們又不關心圖片內容。那麼，在

2024-05-29 14:15:30

springboot~封裝依賴引用包jar還是pom，哪種更規範

將多個第三方包封裝成一個項目後，如果你的目的是讓其他開發人員可以直接引用這些依賴，一般來說有兩種常見的方式：打成JAR包：將封裝好的項目編譯打包成JAR文件，其他開發人員可以將這個JAR文件添加到他們的項目中，並在項目的構建工具（比如

2024-05-29 14:13:20

kbgressdb之數據結構V0.2

前言原本計劃2024.05.01日開始編碼，直到2024.05.21日纔開始編碼，因爲在2024.05.19日才感覺體力恢復到了九成，然後就開始kbgressdbV0.2版本設計，經過一週的推演與構思，終於在2024.05.29日完成V0

2024-05-29 14:11:40

css03 CSS Selectors

https://www.w3schools.com/css/css_selectors.asp A CSS selector selects the HTML element(s) you want to style. CSS Selec

2024-05-29 14:11:29

24小時熱門文章

最新文章

最新評論文章