spark讀取excel表格

參考資料：https://blog.csdn.net/qq_38689769/article/details/79471332

參考資料：https://blog.csdn.net/Dr_Guo/article/details/77374403?locationNum=9&fps=1

pom.xml:

  <!--讀取excel文件-->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.10-FINAL</version>
        </dependency>

        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.10-FINAL</version>
        </dependency>

數據：

代碼：


import java.io.FileInputStream

import com.emg.join.model.{AA, BB}
import org.apache.poi.ss.usermodel.Cell
import org.apache.poi.xssf.usermodel.XSSFWorkbook
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

import scala.collection.mutable.ListBuffer

object Excels {

val conf = new SparkConf().setAppName("join")
      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .setMaster("local[*]")
      .registerKryoClasses(Array[Class[_]](AA.getClass, BB.getClass))
    val spark = SparkSession.builder().config(conf).getOrCreate()
    val sc = spark.sparkContext

import spark.implicits._

val filePath = "c:\\user\\id.xlsx"
//val filePath1 = "hdfs://192.168.40.0:9000/user/id.xlsx"

 val fs = new FileInputStream(filePath)
    val workbook: XSSFWorkbook = new XSSFWorkbook(fs)
    val sheet = workbook.getSheetAt(0) //獲取第一個sheet
    val rowCount = sheet.getPhysicalNumberOfRows() //獲取總行數

    val data = new ListBuffer[BB]()

    for (i <- 1 until rowCount) {
      val row = sheet.getRow(i)

      // 得到第一列第一行的單元格
      val cellwellname: Cell = row.getCell(0)

      //同一字段不同數據類型處理
      var wellname = 0L
      if (cellwellname.getCellType == 0) {
        wellname = cellwellname.getNumericCellValue.toLong
      }
      data.+=(BB(wellname))
      data
    }
  

    val data1 = spark.createDataset(data)

    data1.createTempView("data1")
    val result = spark.sql("select * from data1").coalesce(1)
    result.rdd.saveAsTextFile(outPath)

}

注意：

當路徑爲本地的時候，運行好使。當路徑爲hdfs時，報錯找不到路徑，會出現轉義符問題，查了查資料還是沒能解決！

有解決方法記得回覆哈。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark讀取excel表格

pom.xml:

數據：

代碼：

注意：

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

scala中的foldLeft、foldRight

創建hive表時（分區表、內外表都適用），遇到雙符號的切分符怎麼辦，比如：||

split切分“”（雙引號）

用maven實現java最簡單的httppost推送程序，讀取postgres表中數據，用httppost將數據推送到指定的URL路徑中，推送成功返回200後更新這批數據的falg字段。

用java代碼來理解scala中的伴生類、伴生對象

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結