SAS(二)SAS基本數據類型及SAS基本模塊的介紹
SAS基本介紹
SAS 是英文Statistical Analysis System的縮寫,翻譯成漢語是統計分析系統,最初由美國北卡羅來納州立大學兩名研究生研製,1976 年創立SAS公司, 2006年全球員工總數10000人,全球財富500強中的前100家企業有96家使用SAS軟件進行“商業智能(Business Intelligence, BI)”上的應用,SAS軟件採用按年租用收費制,2005年SAS公司收入16.8億美元。在數據處理領域,SAS系統具有十分完備的數據訪問、數據管理、數據分析和數據呈現的功能。國際上, SAS被譽爲數據統計分析的標準軟件。SAS軟件是一個模塊組合式的系統,共有三十多個功能模塊,其中最基礎的是BASE模塊,專門用於統計分析的有STAT模塊,專門用於時間序列分析的有ETS模塊。SAS軟件是用匯編語言編寫而成的,使用SAS軟件通常需要編寫程序,因此比較適合專業統計人員使用,非統計專業人員學習SAS比較困難,SAS軟件最新版爲9.13版,SAS公司的網址是http://www.sas.com。
SAS基本數據類型
數據集:數據的集合,由樣本(行)和變量(列)組成
a. 橫截面數據集(cross-sectional data set):即給定時點對個人、家庭、企業、國家或一系列其他單位採集的樣本所構成的數據集(應該忽略細小的時間差別)
|
變量1 |
變量2 |
變量3 |
變量4 |
樣本1 |
|
|
|
|
樣本2 |
|
|
|
|
樣本3 |
|
|
|
|
樣本4 |
|
|
|
|
b.時間序列數據集(time series data set):是由一個或幾個變量在不同時間的觀測值所構成的。
|
變量1 |
變量2 |
變量3 |
變量4 |
時間1 |
|
|
|
|
時間2 |
|
|
|
|
時間3 |
|
|
|
|
時間4 |
|
|
|
|
c.混合橫截面數據集(pooled cross section data set):有些數據既有橫截面數據的特點又有時間序列的特點,但每一時點的樣本不同。
|
|
變量1 |
變量2 |
變量3 |
變量4 |
時間1 |
樣本1 |
|
|
|
|
樣本2 |
|
|
|
|
|
時間2 |
樣本3 |
|
|
|
|
樣本4 |
|
|
|
|
|
時間3 |
樣本5 |
|
|
|
|
樣本6 |
|
|
|
|
|
時間4 |
樣本7 |
|
|
|
|
樣本8 |
|
|
|
|
d.綜列數據集(panel data set):由橫截面數據集中每個樣本的一個時間序列組成。(定點長期調查)
|
|
變量1 |
變量2 |
變量3 |
變量4 |
時間1 |
樣本1 |
|
|
|
|
樣本2 |
|
|
|
|
|
時間2 |
樣本1 |
|
|
|
|
樣本2 |
|
|
|
|
|
時間3 |
樣本1 |
|
|
|
|
樣本2 |
|
|
|
|
|
時間4 |
樣本1 |
|
|
|
|
樣本2 |
|
|
|
|
|
|
變量1 |
變量2 |
變量3 |
變量4 |
樣本1 |
時間1 |
|
|
|
|
時間2 |
|
|
|
|
|
時間3 |
|
|
|
|
|
時間4 |
|
|
|
|
|
樣本2 |
時間1 |
|
|
|
|
時間2 |
|
|
|
|
|
時間3 |
|
|
|
|
|
時間4 |
|
|
|
|
數據類型
1、離散數據(discrete data):通常在考察個人、家庭或企業的決策行爲時,通過問卷調查獲得,由此發展出“離散選擇模型”
2、持續數據(survival data):用於考察變量從開始到結束或調查終止前所經過的時間長度,如失業持續時間、罷工持續時間、甚至懷孕間隔
3、cohort(一代人) data :爲持續收集特定社會羣體在一段時間內的變化的數據。如:調查七十年代出生的樣本在10年間的汽車持有率數據或就業率數據等。
SAS功能模塊
SAS系統是由衆多模塊組成的系統,其中Base SAS模塊是SAS系統的核心,其它各模塊均在Base SAS提供的環境中運行,用戶可選擇需要的模塊與Base SAS一起構成一個用戶化的SAS系統,以下爲模塊功能介紹(SAS是有非常多的模塊的,在學習的時候我們只需要掌握幾個比較常用的模塊即可,而且隨着版本不斷地完善,模塊也會越來越多,越來越人性化):
1、Base SAS
Base SAS作爲SAS系統的核心,負責數據管理,交互應用環境管理,進行用戶語言處理,調用其它SAS模塊。Base SAS 爲SAS系統的數據庫提供了豐富的數據管理功能,還支持標準的SQL語言對數據進行操作。Base SAS能夠製作從簡單列表到比較複雜的統計報表。 Base SAS可進行基本的描述性統計及基相關 係數的計算,進行正態分佈檢驗等。
2、SAS/GHAPH
SAS/GHAPH可將數據及其包含着的深層信息以多種圖形生動地呈現出來,如直方圖、圓餅圖、星形圖、散點相關圖、曲線圖、三維曲面圖、等高線圖及地理圖等。SAS/GHAPH提供一個全屏幕編輯器,提供多種設備程序,支持非常廣泛的圖形輸出設備以及標準的圖形交換文件。
3、SAS/ASSIST
SAS/ASSIST爲SAS系統提供了面向任務的菜單界面,藉助它可以通過菜單系統來使用SAS系統其它產品。它自動生成的SAS程序既可輔助有經驗的用戶快速編寫SAS程序,又可幫助用戶學習SAS。
4、SAS/AF
SAS/AF是一個應用開發工具。用戶使用SAS/AF可將包含衆多功能的SAS軟件作爲方法庫,利用 SAS/AF的屏幕設計能力以及SCL語言的處理能力來快速開發各種功能強大的應用系統。SAS/AF也了採用了OOP(面向對象編輯)技術,使用戶可方便快速開發各類具有圖形用戶界面(GUI)的應用系統。
5、SAS/EIS
SAS/EIS是決策工具,也是一個快速應用開發工具。SAS/EIS完全採用新興的面向對象的編程模式(OOP)。EIS以生動直觀的方式(圖或表)將關鍵性或總結性信息呈現給使用者。
6、SAS/ACCESS
爲了對衆多不同格式的數據進行查詢、訪問和分析,SAS/ACCESS提供了與目前許多流行數據庫軟件的接口,利用SAS/ACCESS,可建立外部其它數據庫的一個統一的公共數據界面。SAS/ACCESS提供的接口是透明的和動態的。用戶不必將此文件當作真正存儲着數據 的SAS數據集一樣使用,而只需在SAS中建立對外部的描述(即VIEW)文件,便可將此文件當作真正存儲着數據的SAS數據集一樣使用。對一些經常使用的外部數據,可以利用SAS/ACCESS將數據真正提取進入SAS數據庫。 SAS/ACCESS 提供的接口是雙向的,既可將數據讀入SAS,也可在SAS中更新外部數據或將SAS數據加載到外部數據庫中。目前,SAS/ACCESS支持的數據庫主要有:IML-DL/I,SQL/DS,DB2,ADABAS,Rdb,ORACLE,Sybase,INGRES,Informix,DBF/DIF,ODBC等。
7、SAS/STAT
SAS/STAT覆蓋了所有的實用數理統計分析方法,是國際統計分析領域的標準軟件。 SAS/STAT提供了十多個過程,可進行各種不同模型或不同 特點數據的迴歸分析,如正交回歸/面迴歸、響應面迴歸、logistic迴歸、非線性迴歸等,且具有多種模型選擇方法。可處理的數據有實型數據、有序數據和屬性數據,並能產生各種有用的統計量和診斷信息。在方差分析方面, SAS/STAT爲多種試驗設計模型提供了方差分析工具。另外,它還有處理一般線性模型和廣義線性模型的專用過程。在多變量統計方面, SAS/STAT爲主成分分析、典型相關分析、判別分析和因子分析提供了許多專用過程。SAS/STAT還包含多種聚類準則的聚類分析方法。
8、SAS/QC
SAS/QC爲全面質量管理提供了一系列工具。它也提供一套全屏幕菜單系統引導用戶進行標準的統計過程以及試驗設計。SAS/QC提供了多種不同類型控制圖的製作與分析。Pareto圖(排列圖)可用於發現需優先考慮的因素,Ishikawa圖(魚骨圖)可用於直觀地進行因果分析。
9、SAS/ETS
SAS/ETS提供豐富的計量經濟學和時間序列分析方法,是研究複雜系統和進行預測的有力工具。它提供方便的模型設定手段、多樣的參數估計方法。
10、SAS/OR
SAS/OR提供全面的運籌學方法,是一種強有力的決策支持工具。它輔助人們實現對人力、時間以及其它各種資源的最佳利用。 SAS/OR包含通用的線性規劃、混合整數規劃和非線性規劃的求解,也爲專門的規劃問題提供更爲直接的解決辦法,如網絡流問題、運輸問題、分配問題等。
11、SAS/IML
SAS/IML提供功能強大的面向矩陣運算的編程語言,幫助用戶研究新算法或解決SAS中沒有現成算法的專門問題。SAS/IML中的基本數據元素是矩陣。它包含大量的數學運算符、函數和例行程序,用戶用很少的語句便可執行很複雜的計算過程。
12、SAS/WA
SAS/WA(Warehouse Administrator)是建立數據倉庫的集成工具,它在其它SAS軟件的基礎上提供了一個建立數據倉庫的管理層,包括:定義數據倉庫和主題,數據轉換和彙總,彙總數據的更新,Metadata的建立、管理和查詢,Data marts和Info marts的實現。
13、SAS/MDDB Server
SAS/MDDB Server是SAS的多維數據庫產品,主要用於在線分析處理(OLAP),可將從數據倉庫或其它數據源來的數據以立體陣列的方式存儲,以便於用多維數據瀏覽器等工具快速和方便地訪問。
14、SAS/IntrNet
SAS/IntrNet爲SAS Web應用提供了數據服務和計算服務,包括htmSQL,它爲一UNIX Web服務器的CGI程序,使得能通過支持Web瀏覽器動態查詢SAS數據或外部的關係型數據庫;SAS ODBC Driver使得能通過支持ODBC的Windows Web服務器來訪問SAS數據;SAS Driver for JDBC使得可以通過Java applet來查詢SAS數據; SAS/IntrNet Application Dispatcher使得可以通過Web瀏覽器動態地遞交SAS程序到SAS應用服務器執行,並將結果返回瀏覽器。
15、SAS/GIS
SAS/GIS集地理位置系統功能與數據的顯示分析於一體。它提供層次化的地理信息,每一層可以是某些地理元素,也可與用戶定義的主題(例如:人口、產值等)相關聯。用戶可交互式地縮小或放大地圖,設定各層次顯示與否,並利用各種交互式工具進行數據顯示與分析。
16、SAS/ITSV
IT Service Vision(ITSV)是企業的全面IT服務的性能評估和管理的軟件,這些IT服務包括計算機系統、網絡系統、Web服務器和電話系統等。ITSV將不同來源的數據進行整理和組織,存放於性能數據倉庫中,用GUI或批處理的方式產生組織任意層面的報告。系統程序員及網絡工程師能借此識別、研究並解決有關問題,業務分析人員能借此制定資源管理的總體策略,CIO和數據中心經理能借此定期地得到所需的IT運作的彙總和分析報告。
17、SAS/CFO Vision
SAS/CFO Vision用於財務整合和報告,內部包含了會計知識,爲日常財務工作提供了現成的程序,並提供了訪問所有主要數據源的接口。它主要用於;訪問財務和非財務的有關住處整合財務數據,通過一個財務信息倉庫來管理業務結構,通過財務報告和分析幫助理解財務的結果,並在組織內交流關鍵的業務結果信息。