房屋普查,預測房價,最後預測結果不太準確,後續會調整,可能的原因:最直接原因指標項沒有強線性關係,使用的參數不準確。只是爲了熟悉下流程。
import org.apache.spark.ml.feature.StandardScaler
import org.apache.spark.sql.types.{DoubleType, FloatType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegression
/**
*
* 數據集 http://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html
* 房屋普查,預測房價
* 數據集中的每個數據都代表一塊區域內房屋和人口基本信息
* 1.該地區中心的緯度(latitude)
* 2.該地區中心的經度(longitude)
* 3.區域內所有房屋屋齡的中位數(housingMedianAge)
* 4.區域內總房間數(totalRooms)
* 5.區域內總臥室數(totalBedrooms)
* 6.區域內總人口數(population)
* 7.區域內總家庭數(households)
* 8.區域內人均收入中位數(medianIncome)
* 9.該區域房價的中位數(medianHouseValue)
*
* A = bB+cC+dD+....+iI ,A代表房價,B到I分別代表另外八個屬性
* 假設影響是線性的
*
* 預處理
* 1.房價值大,調整爲小值
* 2.有的屬性沒什麼意義,比