數據科學分析與統計

1、統計學的介紹

1.1 含義

統計學是以數據爲食物的動物

Data—— Statistics ——Information

描述統計學（Descriptive Statistics），研究如何取得反映客觀現象的數據，並通過圖表形式對所蒐集的數據進行加工處理和顯示，進而通過綜合、概括與分析得出反映客觀現象的規律性數量特徵。內容包括統計數據的蒐集方法、數據的加工處理方法、數據的顯示方法、數據分佈特徵的概括與分析方法等。

推斷統計學（Inferential Statistics），研究如何根據樣本數據去推斷總體數量特徵，它是在對樣本數據進行描述的基礎上，對統計總體的未知數量特徵作出以概率形式表述的推斷。

描述統計和推斷統計是統計方法的兩個組成部分，描述統計是整個統計學的基礎，推斷統計則是現代統計學的主要內容。推斷統計在現代統計學中的地位越來越重要，已成爲統計學的核心內容，這是因爲在對現實問題的研究中所獲得的數據主要是樣本數據。但是二者的作用及地位都是同樣重要。從描述統計學發展到推斷統計學，是統計學發展的巨大成就，也是統計學成熟的重要標誌。

1.2 研究對象、特點及其歷史

統計學的研究對象是大量社會經濟現象事物總體的數量方面，反映社會現象事物的發展變化在具體時間、地點、條件下的數量表現，揭示事物的本質、相互聯繫、變動規律性和發展趨勢。

1）數量性

數量性是統計學研究對象最基本的特點。 “三算”：what，how ，how much。也就是，“算什麼”、“怎麼算”、“算出來的是多少”。

2）總體性

社會經濟統計是以社會經濟現象總體的數量方面作爲自己的研究對象。

3）變異性

研究同類現象的數量特徵，前提是每個個體是具有差異的。

政治算術學派

威廉·配第：英國古典政治經濟學之父，統計學創始人，最早的宏觀經濟學者。於1672年出版的《政治算術》，對經濟學、統計學的發展均具有重大意義。

約翰·格蘭特最重要的貢獻是編制了世界上第一個死亡表。——統計學創始人

國勢學派

海爾曼·康令（H.Conring，1606—1681）第一個在德國黑爾姆斯太特大學以“國勢學”爲題講授政治活動家應具備的知識；

阿亨華爾在哥廷根大學開設“國家學”課程，其主要著作是《近代歐洲各國國勢學綱要》。首次提出“統計學”一詞，並定義爲國家顯著事項的學問，言下之意是通過這門科學可瞭解國家理亂興亡之跡。

概率論學派

布萊斯·帕斯卡（B. Pascal，1623-1662）和數學家費馬（Pde Fermat，1601-1665），他們以通信的方式討論賭博時的概率問題。

瑞士數學家貝努利（I.Bernoulli，1654-1705）提出二項分佈理論。

法國的分析學家、概率論學家、物理學家拉普拉斯（P. S. Laplace，1748-127）在1814年發表《概率分析論》一書，構築了古典概率理論的完整體系，並用於自然和社會現象的研究。

法國著名數學家泊松（S.D. Poisson，1781-1840）提出泊松分佈。

數理統計學派——“英美數理統計學派”

比利時學者阿道夫·凱特勒（Adolphe Quetelet，1796－1874），《社會物理》，奠定了近代統計學的基礎，被譽爲“近代統計學之父”、數理統計學派創始人；享有“國際統計會議之父”。

社會統計學派

德國大學統計學教授克尼斯（K.G.A. Knies，1812-1898）首創，統計學家恩格爾（C.L. Engel，1821-1896）和梅爾；

弗朗西斯·高爾頓（F.Golton，1822-1911）——創立了迴歸分析；

卡爾·皮爾遜——爲現代統計學打下基礎，“統計學之父”。

葛塞特（W.S. Gosset，1876-1937）——t一分佈；

博雷爾（E. Borel，1871-1956）奠定了現代概率理論的基礎；

納德·費雪（R.A. Fisher，1890—1962），提出Z分佈、顯著性水平、假設檢驗、自由度、實驗設計和方差分析等方法和概念；

博弈論開創者：美國馮·諾依曼（J.V. Neumann）和摩根斯坦（O. Morgenstern）提出博弈論，使決策理論更加系統化；

現代統計學時期

美國的大學自1950年將統計學設爲獨立的學系，1955年開始頒授統計學的高級學位。

從20世紀50年代起，統計學受計算機、信息論等現代科學技術的影響，新研究領域層出不窮。據估計，現代統計學是以指數式加速度發展的，新的研究分支不斷增加，統計應用領域不斷擴展。統計方法在各學科領域的應用又進一步促進了統計方法研究的深入發展。

2、基本概念

1、總體和單位

總體=有限總體+無限總體

總體是由客觀存在的、在同一性質基礎上結合起來的許多個別事物構成的整體。同質性，大量性、差異性。用大寫表示。

有限總體：是由有限量的單位構成的總體，總體單位是可數的。

無限總體：當總體單位數難以確定，其數量有可能是無限、不可數時。

總體單位，簡稱“單位”，是組成總體的個體，所以有的地方也把單位稱爲“個體”。

總體和總體單位的關係，是整體與個體、集合與元素的關係，兩者相互依存、相互聯繫。二者的具體形式會隨着統計研究目的的不同而變化。

按計算方法分：數值平均數：算術平均數、調和平均數、幾何平均數

位置平均數：中位數、衆數

按反映時間分：動態平均數、靜態平均數

2、平均數

平均指標，是將同質總體內各單位某一數量標誌的差異抽象化，用以反映總體在一定時間、地點條件下的一般水平。第一，反映總體各單位標誌值分佈的集中趨勢。第二，比較同類現象在不同時空範圍的差異。第三，分析現象之間的依存關係。

算術平均數是將總體各單位的標誌值相加求其算術總和，然後除以總體單位個數而得。其基本公式：總體標誌總量 / 總體單位總量

2.1、簡單算術平均數

適用於未分組的統計資料

2.2、加權算術平均數

適用於分組的統計資料，由組距式數列計算加權算術平均數，可用組中值代表各組變量值。

加權算術平均數與簡單算術平均數的關係：

相同點，兩者均受極端值的影響；
不同點，加權算術平均數除了受極端值的影響外，還受權數或次數多少的影響。聯繫：當各組權數相同或次數相等時，加權算術平均數就變成簡單算術平均數。

加權平均數的影響因素：①若各組標誌值不變，各組單位數同時擴大或縮小相同的倍數則平均數不變；②若各組單位數不變，各組標誌值同時擴大或縮小相同的倍數，平均數也隨之擴大或縮小相同的倍數。③若各組權數是相等的，則用加權算術平均和簡單算術平均的計算結果是相同。

各組標誌值(x)
各組權數（次數或比重）f 、 x/∑f

2.3、調和平均數

在很多情況下，由於只掌握每組的標誌值 x 和標誌總量 m 而缺少總體單位數 f 的資料，不能直接採用算術平均數法計算平均數，則應採用調和平均數。有簡單調和平均數和加權調和平均數兩種。

簡單調和平均數（未分組資料）：簡單調和平均數是標誌值倒數的算術平均數的倒數。

H——調和平均數，x——各單位標誌值，n——變量值的個數

如：有某種水果在甲乙丙三個農貿市場的價格分別爲1元/千克、0.9元/千克、0.9元/千克。如果在這三個農貿市場各買1元錢的水果，那麼平均每千克水果的價格應爲多少？

加權調和平均數（已分組資料）已知各組的標誌值水平和各組的標誌總量，不知各組的單位數時。易受極端值的影響。只要有一個標誌值爲0，就不能計算調和平均數。調和平均數應用的範圍較小。

H——調和平均數，m——各組標誌值總量，x——各組標誌值

市場

價格（元/千克）

銷售額（元）

甲

乙

丙

2.00

2.50

2.40

60 000

50 000

60 000

合計

—

170 000

平均價格：

加權調和平均數和加權算術平均數的關係:

兩者權數不同
對同一問題的計算結果相同

兩者應用條件不同，已知分母，使用算術平均數；已知分子，使用調和平均數。

3、衆數

在總體中出現次數最多的標誌值，即總體中最常遇到的最普遍、最一般的變量值，它能直觀地說明客觀現象分配中的集中趨勢。用M0表示。

組距式下，確定衆數所在的組通過公式計算衆數值

公式爲：下限公式上限公式

L、U:衆數所在組的下限、上限； :衆數組與前一組次數之差 i :衆數所在組的組距； :衆數組與後一組次數之差

根據表中的數據，計算50名工人日加工零件數的衆數，中位數。

某車間50名工人日加工零件數分組表
按零件數分組	頻數（人）	累積頻數
105-110 110-115 115-120 120-125 125-130 130-135 135-140	3 5 8 14 10 6 4	3 8 16 30 40 46 50
合計	50	—

4、中位數

先對數列按數值大小排序，確定中位數的位置

組距式下：先確定中位數所在位置然後用公式計算中位數

下限公式上限公式

L、U：中位數所在組下限、上限 fm：中位數所在組的次數

i：中位數所在組的組距

Sm-1、Sm+1：中位數所在組前面、後面各組的累計次數

類比上表：

中位數位次是

5、平均差-均值

標誌變異指標是反映總體各個單位標誌值的差異程度或離散程度。通過變異指標可以表明總體標誌值分佈狀況的特徵。

作用： ①反映總體單位標誌值分佈的離散程度。 ②說明平均數代表性的大小。 ③反映數據變化過程的穩定性、節奏性和均衡性。

標誌變異指標：全距平均差標準差（方差）離散係數

平均差是總體各單位標誌值與其算術平均數離差的絕對值的算術平均數，用A.D表示。與全距相比，平均差的計算考慮了各個標誌值之間的差異，因而能比較確切地反映變量數列的標誌變動程度。綜合反映總體中各單位標誌值的差異程度。

平均差越大，標誌變異程度越大，平均數代表性越小；反之亦然。

未分組—簡單平均差

已分組—加權平均差

6、標準差（方差）-均值

標準差是各單位標誌值對其算術平均數離差的平方的算術平均數的平方根。方差是標準差的平方。平均差是用絕對值消除各標誌值與平均數離差的正負值問題，而標準差是用平方再開方的方法消除各標誌值與平均數離差的正負值。它的含義與平均差相同，也表示各標誌值對算術平均數的平均距離，所不同的是在數學處理上有所區別。

未分組—簡單式

已分組—加權式

標準差的優點較多，它既採用了差異的平均的原理，又使用了全部標誌值進行計算，較爲全面；同時迴避了全距、平均差等指標的缺點，是實際工作中使用較多的一個重要的統計分析指標。

7、離散係數——找差異

全距、平均差和標準差，它們都是反映數據離散程度的總量指標，其數值大小不僅受統計資料中標誌值的平均水平高低的影響，而且都有計量單位。

因此，對於不同的統計總體只有當在它們的平均數相等時，才能用絕對指標比較其離散程度。

離散係數（變異係數）是將標誌變異指標除以其相應的算術平均數。

離散係數有全距係數VR、平均數係數VA.D和標準差係數Vσ三種，其中最常用的是標準差係數。

注意：

①把標誌變異指標和平均指標結合起來，準確描述統計總體特徵。

②把標誌變異絕對指標和相對指標結合起來。

③根據統計資料是否分組，標誌變異指標也簡單變異指標和加權變異指標兩種。

8、標誌和指標、變異和變量

標誌=品質標誌+數量標誌

標誌=可變標誌+不變標誌

不變的數量標誌、可變的數量標誌、不變的品質標誌和可變的品質標誌

總體中各單位具有的共同屬性或特徵稱爲標誌。每個單位都具有、共同表現出來的、屬性或特徵。

品質標誌表明單位屬性方面的特徵，只能用文字來表現；

數量標誌表明單位數量方面的特徵，只用數值來表示，又稱標誌值。

統計指標，又稱綜合指標，是根據統計研究的目的，確定所要研究的統計總體和總體單位，然後對總體各單位數量標誌的具體表現進行登記、彙總，最後形成說明總體合特徵的各種數據資料。數量性‘綜合性、具體性。

統計指數

數量指標:是反映社會經濟現象總規模、總水平或工作總量的統計指標。反映現象的總數量，也就是總體的外延規模，通常用絕對數表示，它的數值隨總體範圍的大小而增減。

總量指標:是反映社會經濟現象總規模或總水平的統計指標，其數值用絕對數表示，總量指標是最基本的統計指標，屬於數量指標。

平均指標:是說明各個單位某一數量標誌一般水平的統計指標，用來代表總體的一般水平，也可以反映發展的平均水平和平均速度。

質量指標:是反映社會經濟現象的相對水平和工作質量的統計指標反映現象質的屬性，也就是總體的內涵，一般用相對數或絕對數表示，它的數值不隨總體範圍的大小而增減

相對指標:又稱相對數，是社會經濟現象中兩個互相聯繫的指標數值之比，用來反映有聯繫的事物之間的數量對比關係。

靜態指標（綜合指標）

標誌與指標的關係

反映的對象範圍不同：標誌是反映的對象是總體單位；指標反映的對象是總體；
形式不同：標誌包括只能用文字表現的品質標誌和只能用數字表示的數量標誌；指標的兩個分類（數量指標和質量指標）都只能用數字表示。

指標的數值是由總體單位的個數或總體單位的數量標誌值綜合而形成的；

指標和標誌可以互相轉化。

指標體系=基本統計指標體系+專題統計指標體系

指具有內在聯繫的一系列指標所構成的整體。

基本統計指標體系反映國民經濟和社會發展及其個組成部分的基本情況的統指標體系。

專題統計指標體系是針對某一個經濟或社會問題而制定的統計指標體系

變異=屬性變異+數值變異

標誌和指標的具體表現各不相同，它們之間的這種差別與變化稱爲變異。

屬性變異是指品質標誌的變化。

數值變異是指數量標誌的變化。

變量

變量按其取值的連續性分爲離散變量和連續變量；

變量按其影響因素不同，可分爲確定性變量和隨機性變量。

3、分析方法

大量觀察法

是指對被研究事物足夠多的單位進行觀察、分析，以反映總體特徵的一種統計方法。大數定律的一般概念是：在觀察過程中，每次取得的結果不同，這是由偶然性所致的，但如果進行大量、重複觀察，其結果的平均值卻幾乎接近確定的數值。

統計分組法

是根據事物內在的規律、性質和統計研究任務的要求，將總體各單位按照某種標誌劃分爲不同類型的一種研究方法。這種方法是研究總體內部差異的重要方法。通過分組可以研究總體中不同類型的性質以及它們的分佈情況。

綜合指標法

是指應用各種統計綜合指標來反映和研究社會經濟現象總體的一般數量特徵和數量關係的研究方法，它是統計分析的基本方法之一。

統計推斷法

統計在研究現象的總體數量關係時，需要了解的總體對象範圍有時候可能很大，甚至是無限的，但由於時間、精力或者經濟等各方面約束，以致常常在客觀上我們只能從中觀察部分單位，根據觀察結果計算和分析，以推斷出總體情況。

統計模型法

根據一定的經濟理論和假設條件，用數學模型去模擬客觀經濟現象相互關係的一種研究方法。

4、數據分組處理

對調查所取得的原始數據資料進行科學的分組、彙總、綜合與加工，使之條理化、系統化，從而得出反映總體特徵的綜合資料的工作過程。

統計分組是根據統計分析的目的和任務，將統計總體按照一定的標誌劃分爲若干個組成部分的一種統計整理方法。

4.1、分組標誌選擇方法

選擇分組標誌

標誌的多少：

簡單分組：按一個標誌對總體進行分組

複合分組：將兩個或兩個以上的分組標誌層疊起來對總體進行分組

標誌性質：

品質標誌分組是反映事物屬性差異的，比如人口普查時，人按照職業、性別、民族等進行分組。按品質標誌分組爲品質分組按數量標誌分組爲變量分組

數量標誌分組是反映實物數量差異的。比如產品的產量、學生的成績、人的體重等。在此處，分組組限的確定是有難度的。

4.2、變量分組

單項式分組：以一個變量值作爲一組。適用於：離散性變量且變量值較少。如：居民家庭按兒童數量分組，可分爲：0個、1個、2個、3個以上

組距式分組：以一個區間作爲一組。適用於：連續變量和不重複的變量值個數很多的離散變量。如：某班學生按統計學考試分組，分爲60以下、60-70、70-80、80-90、90以上。

單項式數列	組距式數列
將一個變量值作爲一個組	將變量值的一個區間作爲一組
適合於離散變量	適合於連續型變量，但也適合於個別離散型變量(如成績、年齡)
適合於變量值較少的情況	適合於變量值較多的情況

組距=上限-下限

閉口組：下限、上限都有。如200——300

開口組：下開口組： ××以下

上開口組： ××以上

如果總體中有極值時，就採用下開口組

組中距=（上限+下限）/2

全距=Max - Mid

最小組的下限要略低於或等於最小變量值，最大組的上限要略高於或等於最大變量值，以免在分組中產生遺漏。

組數與組距的確定，要力求能夠將總體分佈的特點反映出來。由於全距是既定的，在等距分組情況下，組距和組數存在相互制約的關係：

組距=全距/組數組距

需要注意：根據上式計算的只能是一個參考數。

重疊式組限：相鄰兩組中，小組的上限和大組的下限是同一數值。適用於連續型變量分組。

不重疊組限：相鄰兩組中，小組的上限和大組的下限是兩個銜接的整數，中間無其他整數。適用於離散型變量分組。

開口組的組中值可由相鄰的組距推算所缺的組限：

所缺下限＝上限－鄰組組距

所缺上限＝下限＋鄰組組距

4.3、數據分配

在數據分組的基礎上，把總體的所有單位按組歸併排列，形成總體中各個單位在各組間的分佈。也稱分佈數列或次數（頻數）分佈。分配數列是在分組的基礎上加上頻數的分佈的

① 組別： x

② 權數：次數（頻數）f 比重（頻率）f/∑f

各組的組距完全相等的分組稱爲等距數列各組的組距不完全相等的分組稱爲不等距數列。一般而言，若各單位變量值分佈較均勻，則編制等距數列；若變量值分佈不均勻，則編制不等距數列。

累計次數與累計頻數

向上累計：從變量值低的組開始，將各組次數（頻率）逐次向變量值高的組累計，說明各組上限以下的單位數是多少。

向下累計：從變量值高的組開始，將各組次數（頻率）逐次向變量值低的組累計，說明各組下限以上的單位數是多少。

銷售額(百萬元)	商店數	頻率(﹪)	累計次數		累計頻率(﹪)
銷售額(百萬元)	商店數	頻率(﹪)	向上累計	向下累計	向上累計	向下累計
5以下 5～10 10～15 15～20 20～25 25以上	4 10 16 13 4 3	8 20 32 26 8 6	4 14 30 43 47 50	50 46 36 20 7 3	8 28 60 86 94 100	100 92 72 40 14 6
合計	50	100	—	—	—	—

分配數列的次數分佈類型

鐘形分佈

“兩頭小，中間大” 即越靠近中間的變量值分佈次數愈多；越遠離變量值中點分佈的次數愈少，形態如鍾或山丘。

U形分佈

“兩頭大，中間小” 較大和較小的變量值出現的次數多，而中間變量值出現的次數少。

J形分佈

“一邊大，一邊小” 次數隨着變量值的變化大多數集中在某一端的分佈。

5、數據的靜態分析指標

5.1 總量指標

反映某一現象總體在一定時間、地點、條件下的總規模或總水平的指標。其表現形式爲絕對數，因而又稱爲絕對指標。它是計算相對指標和平均指標的基礎。相對指標和平均指標是由兩個有聯繫的總量指標對比而得到的，它們是總量指標的派生指標。總量指標準確與否，將直接影響相對指標和平均指標。

如：全國總人口：1 370 536 875人，香港特別行政區人口：7 097 600人，澳門特別行政區人口：552 300人。

從其內涵分析，包含指標名稱、計算方法、時間限制、空間限制、指標數值和計量單位6個要素。

2017年房地產開發投資3101.97億元，比上年增長13.3%。

指標名稱：房地產開發投資

計算方法：統計彙總

時間限制：2017年1月1日至2017年12月31日這段時期

空間限制：全國（不含港、澳、臺）

指標數值：3101.97、13.3%

計量單位：億元、百分數

總體內單位的總數——總體單位總量職工人數

總體中各單位某一數量標誌值的總和——總體標誌總量工資總額

注意：隨着研究目的和研究對象的不同，總體單位總量和總體標誌總量可以相互轉化。

時期指標：在一段時期內發展過程的總和，某種產品的產量、商品銷售額、工資總額、國民生產總值等都是時期指標。

① 具有可加性四季度的商品銷售額等於一年的商品銷售額

② 數值大小與時期長短有直接關係時期長→數值大

③ 連續登記經常性調查，企業年利潤總額就是由每個月的利潤額相加累計得來

時點指標：在某一時刻（時點）的總量指標，人口數、商品庫存量、館藏圖書冊數、外匯儲備額等都是時點指標。

① 不具可加性館藏圖書冊數，上午5000冊，下午5008冊，數值相加無意義

② 數值大小與時間間隔長短無關企業商品庫存量

③ 間斷計數一次性調查，人口普查

5.2 相對指標

相對指標是質量指標的一種形式，是由兩個有聯繫的指標，具體數值抽象化，進行對比所得，用於表明各種經濟現象間的數量對比關係。如人口的性別比例和年齡構成、人口的出生率和死亡率、人口密度等都屬於相對指標。

相對指標的基本公式：

例如，某企業去年實現利潤50萬元，今年實際55萬元，今年利潤增長了百分之十。

結構相對指標

是在總體分組的基礎上，以總體內部各部分數值與總體數值之比，反映各部分在總體中所佔的比重。結構相對指標一般用百分數表示。結構相對指標包括單位數結構和標誌值結構。總體中各組（部分）比重之和必須等於100%。男職工所佔比重。

作用：

① 可以揭示事物的基本特徵；

② 可以反映事物的本質特徵(由內部矛盾決定)；

③ 從不同時期，可以看出事物的變化過程及其發展趨勢

比例相對指標

反映總體中各組成部分之間數量對比關係的相對指標，也即同一總體內各個部分指標數值之比。男職工與女職工之比。

比較相對指標

將同類指標做靜態對比求得的比值。它表明同類事物在不同空間條件下的數量對比關係。乙市場大米價格/甲市場大米價格。對比2003年中國與美國教育發展水平：美國人均教育經費 / 中國人均教育經費

作用：

反映某種現象在同一時間不同空間條件下的差異程度。

用途：

①對比的兩個指標必須是同一性質的，也就是必須是可比的；

②可以是絕對數對比，也可以是相對數或平均數對比；

③既可用於不同國家、地區、單位的比較，也可用於先進與落後的比較，還可用於和標準水平與平均水平的比較。

強度相對指標

兩種不同總體、不同性質而有聯繫的總量指標的比值，表明現象的強度、密度、普遍程度。如：人口密度、商業網密度、醫務人員密度、人均國內生產總值

強度相對指標：兩個性質不同而有聯繫的分子、分母可互換，形成正指標和逆指標。

正指標：數值大小與現象間的密度、強度成正比例關係。

逆指標：數值大小與現象間的密度、強度成反比例關係。一般來說，正指標越大越好，逆指標越小越好。

	強度相對指標	平均指標
含義不同	兩個有聯繫而性質不同的總體對比而形成相對數指標	反映同質總體單位標誌值一般水平的指標
反映問題不同	反映兩不同總體現象形成的密度、強度、普遍程度	反映同一現象在同一總體中的一般水平
分子分母是否存在一一對應關係	否	是
分子分母是否爲同一總體	否	是
分子分母是否可以互換	是（不是全部）	否

計劃完成程度相對指標

計劃指標爲絕對數（總量指標）時，基本公式爲

計劃指標爲平均數時，計算公式爲

計劃指標爲相對數時，計算公式爲

6、數據的動態分析指標

動態相對指標也叫動態相對數，它指的是同類現象在不同時間上的指標數值對比的比率，表明同類事物在不同時間狀態下的對比關係，說明現象在時間上的運動、發展和變化的相對程度。

注：對比標準的時期叫基期，通常選報告期的前期、某固定期作爲基期。

把用來和基期對比的時期叫做報告期，也叫計算期。

①結構相對指標部分與總體的關係

②比例相對指標部分與部分的關係

③比較相對指標橫向對比關係

④強度相對指標關聯指標間的關係

⑤計劃完成相對指標實際與計劃的關係

⑥動態相對指標縱向對比關係

另：①⑤⑥分子分母不可互換； ②③④分子分母可互換； ④帶計量單位

7、數據動態分析一一時間數列模型

時間數列（動態數列、時間序列），是將同一經濟指標數值按時間順序排列而形成的數列。構成要素：時間 t 指標數值 a

時間數列與變量數列的比較

數列名稱	數列性質	變量性質	總體是否分組
時間數列	動態數列	針對總體的經濟指標的變化狀況	不分組
變量數列	靜態數列	針對的是總體分組後頻數的變化	分組

作用：

從時間的變化過程中我們可以瞭解經濟現象的一些歷史狀況的變化
可以立足現在對當前態勢，通過編制的時間數列進行分析
可以展望未來並對今後進行經濟預測，可以研究時間數列中現象的發展方向等，爲預測提供依據

總量指標時間數列

	時期數列	時點數列
可加性	有	無
大小與時間關係	與時期長短有直接關係	與間隔長短有直接關係
取得方式	連續登記	間斷登記
		連續時點數列（在建樓盤數）間斷時點數列（年末人口數）

相對數時間數列是由一系列同類的相對指標，按時間的先後順序加以排列而形成的數列。它反映社會經濟現象之間相互對比關係的發展過程。

平均指標時間數列是指由一系列同類平均指標按時間先後順序排列的時間數列。用來說明社會經濟現象一般水平的變化過程或發展趨勢。平均指標時間數列主要分爲兩類：

靜態平均指標時間數列
動態平均指標時間數列

時間數列的編制原則

時間長短應相等（間隔一致）：時期數列——時期長短相等時點數列——時間間隔相等
總體範圍要一致：同一總體在不同時間上的變化
指標的經濟內容應相同：不同時期指標數值所包含的經濟內容應該相同
指標的計算方法、計算價格、計算單位應一致：口徑一致

時間數列水平分析指標：發展水平、平均發展水平 (序時平均數)、增長量和平均增長量。

7.1、水平分析指標一一發展水平

發展水平是指時間數列中的每項指標數值，用來反映社會經濟現象在各個時期或時點上所達到的規模或水平。

發展水平是計算其它動態分析指標的基礎。
發展水平表現形式可以是絕對數、相對數或平均數。
若爲絕對數時，發展水平用ɑ表示。
若爲相對數或平均數時，發展水平用c表示。

序列：a0，a1，a2,...,an-1,an

按其所處的位置

最初水平 a0 , 中間水平a1 ,....,an-1 , 最末水平 an.

按其作用不同

報告期水平（被研究、被比較）,基期水平（基準）

7.2、水平分析指標一一平均發展水平

平均發展水平又稱序時平均數或動態平均數。它是時間數列中各個不同時期或時點上發展水平的平均數，用以表明現象在一段時間內發展變化的一般水平。

平均發展水平是把社會經濟現象在不同時間上的變動差異抽象化。
從動態上說明現象在某一段時間內的一般水平。

靜態平均數和動態平均數的計算原理相同。平均發展水平的計算方法，首先要判斷所掌握的時間數列的類型。

指標性質	計算依據	平均對象	作用
靜態平均數	變量數列	各單位標誌值	現象在同一時間上總體各單位的標誌值的一般水平
動態平均數	時間數列	各時間發展水平	現象在各個時間上發展的一般水平

總量指標時間數列

若爲時期數列，採用簡單算術平均法：

若爲時點數列，

根據連續時點數列計算平均發展水平

①逐日登記的連續時點數列，用簡單算術平均法

②分組情況下的連續時點數列，以數值持續的天數爲權數進行加權算術平均（式中 f 爲天數）：

根據間斷時點數列計算平均發展水平

①間隔相等的間斷時點數列，採用首尾折半法：

②間隔不等的間斷時點數列，採用加權算術平均法：

時間

間隔

1-4月

5-7月

8-12月

不同動態數列對應的平均發展水平的計算方法：

相對指標時間數列

相對指標時間數列計算序時平均數時是不能採用簡單算術平均的方法來求解。由於該數列派生於兩個有聯繫的總量指標時間數列，因此，求其平均發展水平，可先根據分子、分母的總量指標時間數列的性質，分別計算它們的平均發展水平，再進行對比，即可得到所求的相對指標時間數列的平均發展水平。相對指標是不能直接相加的。

分子、分母都是時期數列
分子、分母都是時點數列
分子是時期、分母是時點數列

平均指標時間數列

平均指標可分爲靜態平均指標和動態平均指標

靜態平均指標時間數列

實質上也是兩個總量指標時間數列相對比所形成的。因此，其平均發展水平的計算與相對指標時間數列平均發展水平的計算完全相同。

動態平均指標時間數列

根據情況不同而定，如果時期相等，可用簡單算術平均數計算，如果時期不等，可用時期長度作爲權數進行加權平均的計算。

7.3、水平分析指標一一增長量

增長量是報告期發展水平與基期發展水平之差，用以說明社會經濟現象在一定時期內增減變化的絕對數量。

增長量=報告期水平—基期水平其值可以大於、等於或小於0

根據基期的不同，可分爲：

逐期增長量和累計增長量之間的關係

累計增長量等於相應的各個逐期增長量之和

相鄰兩個累計增長量之差等於相應的逐期增長量

7.4、水平分析指標一一平均增長量

平均增長量是指現象在一定時期內平均每期增長的數量。它是逐期增長量的平均數。由於各個逐期增長量之和等於累計增長量，所以也可以用累計增長量除以時間數列的項數減1(逐期增長量的個數）求得。

7.4、速度分析指標一一平均增長量

動態數列速度分析指標：發展速度、增長速度、平均發展速度、平均增長速度、增長1%的絕對值

發展速度是數列中報告期水平與基期水平之比，表明現象發展變化的方向和程度。其值可大於、等於或小於1。

按基期不同：環比發展速度，定基發展速度

數據科學分析與統計

數據科學分析與統計

1、統計學的介紹

2、基本概念

3、分析方法

4、數據分組處理

銷售額(百萬元)

商店數

頻率(﹪)

累計次數

累計頻率(﹪)

向上累計

向下累計

向上累計

向下累計

5以下

5～10

10～15

15～20

20～25

25以上

4

10

16

13

4

3

8

20

32

26

8

6

4

14

30

43

47

50

50

46

36

20

7

3

8

28

60

86

94

100

100

92

72

40

14

6

合計

50

100

—

—

—

—

5、數據的靜態分析指標

6、數據的動態分析指標

7、數據動態分析一一時間數列模型