解析Pyspark如何讀取parquet數據

原創

2020-05-02 11:36

導讀	這篇文章主要介紹了pyspark讀取parquet數據過程解析,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

parquet數據：列式存儲結構，由Twitter和Cloudera合作開發，相比於行式存儲，其特點是：

可以跳過不符合條件的數據，只讀取需要的數據，降低IO數據量；壓縮編碼可以降低磁盤存儲空間，使用更高效的壓縮編碼節約存儲空間；只讀取需要的列，支持向量運算，能夠獲取更好的掃描性能。

那麼我們怎麼在pyspark中讀取和使用parquet數據呢？我以local模式，linux下的pycharm執行作說明。

首先，導入庫文件和配置環境：

import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
 
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多個python版本時需要指定
 
conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)

然後，使用spark進行讀取，得到DataFrame格式的數據：host:port 屬於主機和端口號

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"
df = spark.read.parquet(parquetFile)

而，DataFrame格式數據有一些方法可以使用，例如：

1.df.first() ：顯示第一條數據，Row格式

print(df.first())

2.df.columns：列名

3.df.count()：數據量，數據條數

4.df.toPandas()：從spark的DataFrame格式數據轉到Pandas數據結構

5.df.show()：直接顯示錶數據；其中df.show(n) 表示只顯示前n行信息

6.type(df)：顯數據示格式

以上就是本文的全部內容，希望對大家的學習有所幫助。Linux就該這麼學

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Git使用經驗總結4-撤回上一次本地提交

這個問題的意義在於，Git提交代碼是先提交到本地，然後再推送到遠端。一些比較嚴格的Git倉庫會有一些代碼提交檢查，一旦檢查到問題就會禁止提交。那麼這個時候就尷尬了，本地已經提交了，但是遠端又推送不上去。基於當前版本作修改再提交也不一定能推送

2024-05-08 14:31:14

Git使用經驗總結5-修改提交信息

還是先說說這個這樣做的目的爲什麼。除了正常的進行代碼變更說明修改，更重要的是Git提交的時候能夠觸發一些操作，例如在Github上提交close#24這樣的關鍵字可以將提交關聯到具體的issue上，這樣可以讓變更關聯到具體的需求或者討論上。

2024-05-08 14:31:14

全站變灰色樣式通用

html { -webkit-filter: grayscale(100%); -moz-filter: grayscale(100%); -ms-filter: grayscale(100%); -o-filter: grayscale(

2024-05-08 14:30:44

php-strpos 判斷一個字符串是否存在於另一個字符串中

在 PHP 中，你可以使用 strpos() 函數來判斷一個字符串（例如 "play"）是否存在於另一個字符串中。strpos() 函數會返回子字符串在原始字符串中首次出現的位置（索引從 0 開始），如果子字符串不存在，則返回 false。

流年中渲染了微笑

2024-05-08 14:30:04

編程隨想曲週刊（第75期）

這裏記錄每週的所見所聞，週日發佈。點擊閱讀原文可以直接訪問文章鏈接。文章看完豆瓣電影250後的體驗羅永浩的嘴，蔚來的腿熱點蔡崇信最新發聲：阿里承認錯誤，我們到了最危險的時刻！ 5年來首次，馬雲內網髮長文播客 156.程

2024-05-08 14:27:23

編程隨想曲週刊（第76期）

這裏記錄每週的所見所聞，週日發佈。點擊閱讀原文可以直接訪問文章鏈接。編程從零開始的 OpenWrt 工具互聯網上最值得信賴的指南網站 Apple Store一條新規，直接讓遊戲機模擬器登頂了 iOS最強模擬器 Delta 正式上

2024-05-08 14:27:23

DeepFilterNet復現

大概框架有兩路特徵，一個ERB特徵，另外一個是STFT之後的複數特徵。先使用ERB濾波器對ERB特徵進行增益，然後再傳入DNN模型，兩階段模型。整體時延最低可達5ms。這裏提到的DeepFilter，其實就是說用神經網絡對TF譜進行操

2024-05-08 14:25:33

條款49：瞭解 new handler 的行爲

2024-05-08 14:21:53

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

作者：xlecho 鏈接：https://juejin.cn/post/6931890118538199048 血一般的教訓，請慎用 insert into select。同事應用之後，導致公司損失了近10w元，最終被公司開除。事情

2024-05-08 14:21:32

多語言實現 - 世界語言對應的簡寫

準備多語言文件： messages_en.properties、messages_zh.properties Locale locale = new Locale("en", "US"); // 設置語言爲英文，地區爲美國 Re

2024-05-08 14:15:12

《最新出爐》系列入門篇-Python+Playwright自動化測試-44-鼠標操作-上篇

1.簡介前邊文章中已經講解過鼠標的拖拽操作，今天宏哥在這裏對其的其他操作進行一個詳細地介紹和講解，然後對其中的一些比較常見的、重要的操作單獨拿出來進行詳細的介紹和講解。 2.鼠標操作語法鼠標操作介紹官方API的文檔地址：https://

2024-05-08 14:14:42

Docker 安裝 Elasticsearch 和 kibana

獲取鏡像 docker pull elasticsearch:8.11.4 docker pull elasticsearch:8.11.4 創建網絡 docker network create es-net 運行 es d

2024-05-08 14:14:21

算法~PBKDF2-SHA讓密碼更安全

摘要：在當今的數字世界中，密碼安全是至關重要的。爲了保護用戶密碼免受未經授權的訪問和破解，Password-Based Key Derivation Function 2 (PBKDF2)算法成爲了一種重要的工具。在 PBKDF2 算法中

2024-05-08 14:12:31

Computer Basics - Top 10 keyboard shortcuts everyone should know

REF https://www.computerhope.com/tips/tip79.htm Top 10 keyboard shortcuts(快捷鍵) everyone should know Using keyboard short

2024-05-08 14:10:30

Computer Basics - How to use a computer keyboard

REF https://www.computerhope.com/issues/ch001689.htm https://www.digitalunite.com/technology-guides/compute

2024-05-08 14:10:30

24小時熱門文章

最新文章

最新評論文章