近期使用pyspark遇到的問題以及解決辦法

原創

我要出家当道士

2020-04-22 01:15

首先是環境安裝，可參考之前的博客，裏面有hadoop和spark環境配置的連接。最好先安裝hadoop。使用spark的話hadoop最好還是安裝下。https://blog.csdn.net/qq_37437983/article/details/105492509

一：在spark中運行python代碼的問題，真的這個對於經常使用spark的人來說可能是非常簡單的問題，但對於我這個急於求成的人來說，真的手足無措。看網上的方法都是使用spark-submit來提交，這樣總覺得很煩，如果可以之間在編譯器中點擊運行按鈕多好。然後具體找了找，可以在代碼頭部添加如下代碼，把環境加載進去就行了。

import os
import sys

os.environ['SPARK_HOME'] = r'/opt/spark-2.4.1/'
sys.path.append("/opt/spark-2.4.1/python/lib/py4j-0.10.7-src.zip")

二：首先就是第三方依賴的問題，這個問題我到現在還是沒有解決，但我的問題比較特殊。下面提供的是網上的通用解決辦法。

1，將需要使用依賴打包成zip格式(推薦virtualenv工具，具體用法百度)，使用spark-submit提交代碼是使用--py-files提交，例如下面命令，提交了pye.zip。這個方法只適用於源碼中沒有.so文件的依賴，對於類似numpy這樣的依賴因爲其存在.so需要動態編譯，無法滿足，所以肯定會報錯numpy中缺少某個文件的錯誤。

spark-submit --master spark://ITS-Hadoop10:7077 --py-files pye.zip cal_similar_spark_mch.py

方法不唯一，也可以在代碼中添加如下代碼：

sc = SparkContext(appName="calculate similar matrix" , master="spark://192.168.0.106:7077")
sc.addPyFile('pye.zip')

2，直接使用anaconda(推薦),真的好使，誰用誰知道。

三，類似java.lang.UnsupportedClassVersionError: org/apache/spark/network/util/ByteUnit : Unsupported major.minor version 52.0這樣的問題。解決辦法就是重裝jdk，這個原因就是jdk版本與spark版本不對應造成的。

四，pyspark連接mysql數據庫缺少驅動,java.sql.SQLException: No suitable driver.解決辦法就是下載驅動：點我呀。然後放到%JAVA_HOME%下的/jre/lib/ext/目錄下。這個是對於oracle JDK而言的。我一開始爲了省事安裝的openjdk，所以方法需要改變下，編輯 spark安裝目錄中的$SPARK_HOME/conf/spark-env.sh文件，加入如下命令。後面的路徑就是你存在sql驅動的位置，需要修改下。

export SPARK_CLASSPATH=/opt/spark-2.4.1/jars/mysql-connector-java-8.0.11.jar

五，還一個就是在代碼裏連接spark的問題。具體錯誤我忘了，大概就是master連不上。如下代碼：

sc = SparkContext(appName="calculate similar matrix" , master="spark://192.168.0.106:7077")

錯誤我在網上找了下，大概是這樣的：

Failed to connect to master 10.xx.xx.xx:7077

具體解決辦法參考：點我呀

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

構建無服務器數倉（三）EMR Serverless 操作要點、優化以及開放集成測試

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工

2024-05-23 21:22:10

peewee的動態Model

有一個客戶需要同一個Model，可以創建不同的數據庫的表單（自定表單名稱）。按官方文檔，自定義table_name的方法如下： from peewee import * contacts_db = SqliteDatabase('con

2024-05-31 21:48:26

一站式鏈路追蹤：阿里雲的端到端解決方案

作者：涯海炎炎夏日，當你打開外賣 APP 購買奶茶卻發現下單失敗；五一佳節，當你自駕遊途中發現導航響應緩慢，頻繁錯過路口；深更半夜，當你輔導孩子功課，卻發現 GPT 應用遲遲無法應答。不知你有沒有想過，這些程序運行的背後到底是怎樣的世界，

2024-05-31 21:13:44

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【WYM】問了一個Pandas處理的問題，提問截圖如下：原始數據： temp = dict() temp[64001] = {64002: 1.0, 64003: 1.0,

2024-05-30 10:02:40

[oeasy]python019_ 如何在github倉庫中進入目錄_找到程序代碼_找到代碼

繼續運行 🥋 回憶上次內容上上次真寫了萬行代碼這萬行代碼都是寫在明面上的這次使用git命令下載了 github上面的倉庫

2024-05-30 00:35:24

Python網絡爬蟲的時候json=就是讓你少寫個json.dumps()

大家好，我是皮皮。一、前言前幾天在Python白銀交流羣【空翼】問了一個Python網絡爬蟲的問題，提問截圖如下：登錄請求地址是這個：二、實現過程這裏【甯同學】給了一個提示，如下所示：估計很多小夥伴和我一樣會有一個疑問吧，

2024-05-29 10:02:33

記錄一次cnvd事件型證書漏洞挖掘

事件起因是因爲要搞畢設了，在爲這個苦惱，突然負責畢設的老師說得到cnvd下發的證書結合你的漏洞挖掘的過程是可以當成畢設的，當時又學習了一段時間的web滲透方面的知識，於是踏上了廢寢忘食的cnvd證書漏洞挖掘的日子。前言：聽羣友們說，一般可

2024-05-28 11:16:19

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

今天！通義靈碼在北京、成都、杭州三城開講啦

通義靈碼自從入職阿里雲以來備受行業關注。5 月 24 日，阿里雲工程師奔赴北京、成都、杭州三城，向企業和開發者介紹並演示通義靈碼，通義靈碼依然是大家話題的C位，並收穫了衆多粉絲。 @杭州阿里雲金融創新峯會今天，2024 阿里雲金融創新峯

2024-05-27 21:13:46

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具?

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【斌】問了一個Python庫安裝的問題。求教大佬：華爲筆記本，麒麟系統，安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具，再安裝

2024-05-25 10:02:28

從入門到精通：掌握Scrapy框架的關鍵技巧

在當今信息爆炸的時代，獲取並利用網絡數據成爲了許多行業的核心競爭力之一。而作爲一名數據分析師、網絡研究者或者是信息工作者，要想獲取網絡上的大量數據，離不開網絡爬蟲工具的幫助。而Scrapy框架作爲Python語言中最爲強大的網絡爬蟲框架之

2024-05-25 00:09:06

面向AI的開發：從大模型（LLM）、檢索增強生成（RAG）到智能體（Agent）的應用

引言隨着人工智能技術的飛速發展，大型語言模型（LLM）、檢索增強生成（RAG）和智能體（Agent）已經成爲推動該領域進步的關鍵技術，這些技術不僅改變了我們與機器的交互方式，而且爲各種應用和服務的開發提供了前所未有的可能性。正確理解這三者

2024-05-24 23:57:39

對話阿里云云原生產品負責人李國強：推進可觀測產品與OpenTelemetry開源生態全面融合

5 月 22 日，在最新一期的飛天發佈時刻上，阿里雲宣佈多款可觀測產品全面升級，其中一項是應用實時監控服務 ARMS 在業內率先推進了與 OpenTelemetry 開源生態的全面融合，極大豐富了可觀測的數據類型及規模，大幅增強了 ARMS

2024-05-24 21:13:50

昔日輝煌不再，PHP老矣，尚能飯否？

導語 | 近期 TIOBE 最新指數顯示，PHP 的流行度降至了歷史最低，排在第 17 名，同時，在年度 Stack Overflow 開發者調查報告中，PHP 在開發者中的受歡迎程度已經從之前的約 30% 萎縮至現在的 18%。“P

2024-05-23 23:48:42

24小時熱門文章

最新文章

最新評論文章