探索性數據分析week1筆記

1.1圖表分析的準則

老師說此處主要參考了 Edward Tufte(2006)年的 Beautiful Evidence一書,第二條指的是表示出自己所認爲的因果關係及相關解釋



1.2 探索性圖表



legend:傳說,也有圖例的意思

magent:品紅色的

wheat:小麥色的

summary():作一個大致的統計分析,包括最小值,四分位值,最大值,中值

boxplot(pollution$pm,col="blue") 做一個箱型圖,色爲藍   abline(h=12)是在圖中加入一條基準線,此外v表示縱,h表示橫

hist(pollution$pm,col="green")做一個條型圖,色爲綠  在下面再加上一個rug(pollution$pm)是在條形圖下方加網格,顯示一個大致分佈

hist(pollution$pm,col="green",breaks=100)加上那個breaks ,即將條形圖分爲100個區間

當然直方圖也可以用abline(v=12,lwd=2)來搞起,前者表示豎直線的位置,此處爲x=12,後者爲線條粗度,越大越粗呢

也可以有abline(v=median(pollution$pm25),col="magenta",lwd=4),此處做出的效果很好,因爲有中值做比對,而箱型圖中包括了中值呢

條形圖:barplot(table(pollution$region),col=‘wheat',main="dkkdkdkkdk")   main主要是標題,另當要繪製的類別型變量爲一個因子或有序因子時,可以用plot()直接作圖

條形圖與直方圖有較大區別

條形圖主要用於分類數據,並不連在一起,寬度無意義,高度表頻數

直方圖可表示連續數值數據,連在一起,寬度表區間組距,高度表頻率,面積表示頻數


於是呢開始於複合比較之道,如圖



注意pm25左邊是數值型,region右邊是分類型,即是y軸爲數值型,x軸爲分類型


par 是一個類似於matlab中排列圖表的函數,mfrow表示是按一個2*1來表示,mar(bottom,left,top,right)給出圖象的四個邊際,當然也可以不用加,系統自帶默認值

好吧,一個最簡單最常用的莫過於散點圖了

scatterplot

with(pollution,plot(latitude,pm25))

abline(h=12,lwd=2,lty=2)

在上面中plot(x,y)軸,abline中lty=1應該是實線,2則是虛線吧

switch(ity)

case1:__________________

case2:---------------------------------

case3............................................

case4,-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.

當然也可以按分組來加色彩,如with(pollution,plot(latitude,pm25,col=region)) 即指按不同區域這個變量來給出不同色彩

同樣亦可如下圖,很有意思的說



further resources

R Graph Gallery

R Bloggers

1.3 R中的作圖系統

主要分三種,最古老的一種爲the base plotting System

the base plotting system

。藝術家的調色板模式

。以一張空白帆布開始(blank canvas)

。以plot函數開始作圖(或相似的函數)

。使用註釋函數(annotation functions)來add/modify(text,lines,points,axis)


intuitive:直觀的

ex:用R中內置的data() :cars,作圖 with(cars.plot(speed,dist)),如果想加東西的話,慢慢來自己慢慢加

第二種爲the lattice System(晶格系統)不知翻譯對否?


那麼有一些不足點呢在於

。有時用單個函數調用一個整圖會很讓人不爽(課上用的是awkward:即尷尬)

。在圖中的註釋不會那麼的直觀(annotation,intuitive)

。面板函數和註腳很難使用,且需要強烈的準備(use of  panel functions and subscripts diffcult to wield and requires intense preparation

。一旦圖象被創建,就再也不能add(can not add  to the plot once it is created)



到現在還不懂的是region=state.region不知道是咋來的

好吧,明白了,在data()中還有另一個數據集,叫做state.region,老師把這個數據集合到state.x77上去了,好吧

最後一個呢就是流行度最廣的ggplot2 System了

比lattice 直觀,比base 強大,而且兼具靈活性,可以慢慢加東東的喲



當然要是對背景不爽的話,也是可以換的,可以改默認值的,當然與其他兩個系統會有所不同的說

好吧總結一下

。Base  藝術家的調色板,你可以一樣一樣的加東西上去,但是如果要批量生產的話,可能就得寫不少函數了

。lattice 所有的圖表呢都由一個函數來表達出來,不能更改

。ggplot2 相當於前面兩種的混合體

在使用過程中,如果用了一種系統的函數,就不要再用另一種系統的函數,否則的話,it's so confused


1.4 基礎繪圖系統(Base plotting System)

encapsulate:封裝

devices:此處似爲繪圖面板的意思




piecemeat :零碎,tweaked:變化


有問題的話就打?par 就好了


上圖中將Month轉爲因素


有意思的是第一個pch.默認情況是。,如果爽的話甚至可以改成字符,比如‘a',於是散點圖變成了全是a 的圖,哈哈

override:覆蓋        specify:指定          specific:具體


類似於空間佈局一樣的par 函數,las 取值範圍爲{0,1,2,3},0爲默認,1爲全水平,2爲垂直於軸,3爲兩座標軸標籤全垂直

可以通過par函數來查看默認值的(default values for global graphics parameters),

如:par("lty')   顯示:## [1] "solid"     par("col")等等, par("pch")      mar()函數成順時針排列,下,左,上,右

如par("mar")  顯示:##   【1】 5.1  4.1  4.1  2.1 表示圖的邊際順時針排列爲5.1,4.1,4.1,2.1


圖做好了之後,可以用這些個東西往後加     arbitrary:隨機的    ,text(-2,-2,"label")意指在圖中的(-2.-2)位置 輸入label字,legend主要有四個值:topleft/topright/bottomleft/bottomright

比如:with(airquality,plot(Wind,Ozone))

後面加上title(main="名字“) ##add a title

也可以這樣




好吧,pch=20就是小圓點,下面這種形式比上節的要簡單一點吧


mtext就是寫在所有圖上面的主題呢,outer不設置的話,是沒有地方寫mtext的

總結一下:

在基礎繪圖系統中,是通過一系列的調用R函數來創建一個圖的

繪圖呢主要有兩步了,第一是創建一個plot,第二個呢是給圖加註釋,如(加線,點,圖例,等等)

這個系統呢很靈活,在控制繪圖上也有高度的自由,但是同時控制的參數太多,也很煩人,不過默認值還是比較好用的

如果不知道 點代表什麼,可以用example(points)來看

rnorm(n)標準正態分佈生成n個,rpois(n,lamba)生成泊松分佈n個,其中lamba這個參數自定

plot(x,y,type="n")顯示一張空圖

如g <- gl(2,50,lables = c("male","female"))即是將1和2每個都重複50次,因素 爲男,女,

str(g)此處中str功能類似於class等

plot(x,y,type="n")創建一個空圖

points(x[g=="male"],y[g=="male"],col="green")再分別往上加點

points(x[g=="female"],y[g=="female"],col="red")

1.5 R中的圖形設備(graphics devices in R) scalable可擴展的







這個在使用過程中,最好先用代碼試下看行不行,再複製到pdf中,因爲將圖寫入pdf中的時候,是不能可視化的





上面的試了下,是可以的



發佈了31 篇原創文章 · 獲贊 1 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章