R語言進行EDA——R語言基礎

原創

2020-02-23 22:47

R語言基礎

初次編寫R語言程序，根據退件使用指南網站https://www.statmethods.net/

一、數據集子集化（數據集篩選）

getwd() #獲取當前working directory

statesInfo<-read.csv("stateData.csv") #讀取CSV文件


#數據子集化
stateSubset <- subset(statesInfo,state.region ==1) #滿足state.region ==1的所有行,後還可有參數選擇留下的變量，默認是全部
stateSubset1 <- subset(statesInfo,state.region ==1,select=state.abb:state.region) #保留state.abb到state.region的所有變量
stateSubsetBracker <- statesInfo[statesInfo$state.region==1,] #數組切割法，結果與上行同。

myVars <- c("population", "income", "illiteracy" )
myset <-statesInfo[myVars] 
myvars <- c("v1", "v2", "v3")#保留三個變量
newdata <- mydata[myvars]

myvars <- paste("v", 1:3, sep="") 
newdata <- mydata[myvars] #同上 保留三個變量
newdata <- mydata[c(1,5:10)]#保留第一個，第五個到第十個變量
newdata <- mydata[1:5,] #保留前五個變量
newdata <- mydata[which(mydata$gender=="F" & mydata$age>60)] #根據年齡和性別篩選變量

attach(mydata) #根據年齡和性別篩選變量，同上
newdata <- mydata[ which(gender=='F' & age > 65),]
detach(mydata)

myvars <- names(mydata) %in% c("v1", "v2", "v3") 
newdata <- mydata[!myvars] #刪除三個變量"v1", "v2", "v3"
newdata <- mydata[c(-3,-5)] #刪除第三個和第五個變量
mydata$v3 <- mydata$v5 <- NULL #刪除V3和V5變量（直接原數據刪除了，不建議使用）

注：paste用法如下

R語言-Paste函數

該函數和excel中的&一樣，可以將不同類型的數據放在一起。

paste(....,sep="",collapse=NULL)

...表示要加在一起的數據類型，e.g

p<-paste("b",1:5)

"b 1" "b 2" "b 3" "b 4" "b 5" 注意這裏每一項中間有空格隔開，如果不想要空格，需要使用sep參數

p<-paste("b",1:5,sep="")

"b1" "b2" "b3" "b4" "b5"

所以sep參數的作用是隔開被連接在一起的數據，當然必須是character string，例如：

p <-paste("b",1:5,sep="f")

"bf1" "bf2" "bf3" "bf4" "bf5"

collapse通常不用給出，如果給出，則整個結果變爲一個string,例如：

p <-paste("b",1:5,sep="f",collapse="s")

"bf1sbf2sbf3sbf4sbf5"

二、如何設置因子水平

https://stats.idre.ucla.edu/r/modules/factor-variables/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

R語言進行EDA——R語言基礎

R語言-Paste函數

二、如何設置因子水平

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

機器學習類別不平衡問題的解決方法——待完善

sklearn 支持向量機實踐總結

Python編碼系列問題-（一）

【R語言】必學包之dplyr包

ggplot2學習筆記之標度scale

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結