01_05 數據獲取和清理概覽

1、數據獲取和清理的內容

(1)髒數據和乾淨數據

(2)下載文檔

(3)讀取數據(excel,xml,json,mysql,hdf5,web....)

(4)合併數據

(5)重新構造數據

(6)彙總數據

(7)尋找和替換

(8)數據源


2、數據庫連接和列舉

ucsDb <-dbConnect(MySQL(),user="genome",host="genome_mysql.cse.ucsc.edu")

result  <-dbGetQuery(ucscDb)

result


3、合併數據——merge()

mergeData2<- merge(reviews,solutons,by.x="solution_id",by.y="id",all=TRUE)

head(mergeData2[,1:6],3)

reviews[1,1:6]


4、髒數據和處理過的數據

(1)髒數據/原始數據

數據的來源、很難用來分析、數據分析包括處理、原始數據也許只要處理一次


(2)處理過的數據

可以用來分析的數據,數據處理包括合併、子集、轉換等,也許處理有標準、所有處理的步驟都要被記錄下來



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章