1、數據獲取和清理的內容
(1)髒數據和乾淨數據
(2)下載文檔
(3)讀取數據(excel,xml,json,mysql,hdf5,web....)
(4)合併數據
(5)重新構造數據
(6)彙總數據
(7)尋找和替換
(8)數據源
2、數據庫連接和列舉
ucsDb <-dbConnect(MySQL(),user="genome",host="genome_mysql.cse.ucsc.edu")
result <-dbGetQuery(ucscDb)
result
3、合併數據——merge()
mergeData2<- merge(reviews,solutons,by.x="solution_id",by.y="id",all=TRUE)
head(mergeData2[,1:6],3)
reviews[1,1:6]
4、髒數據和處理過的數據
(1)髒數據/原始數據
數據的來源、很難用來分析、數據分析包括處理、原始數據也許只要處理一次
(2)處理過的數據
可以用來分析的數據,數據處理包括合併、子集、轉換等,也許處理有標準、所有處理的步驟都要被記錄下來