數據挖掘算法

方差分析

在實際生活中,人們往往通過試驗來了解各種因素對諸如產品銷量、產品產量、產品質量等指標的影響,不僅如此,還要在各種因素中找出顯著的因素以及這些因素在什麼狀態(水平)對改變產品質量,增加產品產量、產品銷量最有利,從而選出最優的因素水平,爲此,首先設計一個合適的實驗方案,按照該實驗方案進行試驗,然後對試驗結果進行分析,方差分析就是解決這項工作的有效方法。方差分析按照影響試驗指標的個數分爲單因素方差分析、雙因素方差分析和多因素方差分析。

方差分析就是要分析控制變量的不同水平是否對觀察變量產生了顯著影響。如果控制變量的不同水平對實驗結果產生了顯著影響,那麼他和隨機變量共同作用必然使得觀察變量數據有顯著變動;相反,如果控制變量的不同水平對實驗結果沒有產生顯著影響,那麼,觀察變量數據的變動就不會明顯表現出來,他的變動可以歸結爲受隨機變量影響造成的。

單因素方差分析實質也採用了統計推斷的方法,其目的是通過實驗數據(樣本數據)研究觀察變量中的若干個不同水平下,其各個總體在分佈上是否存在顯著差異。

多因素方差分析既要分析多個控制變量獨立作用對觀察變量的影響,又要分析多個控制變量交互作用對觀察變量的影響和其他隨機因素對觀察變量的影響,因此,它將觀察變量總的變差平方和分解成多個控制變量單獨作用引起的、由多個控制變量交互影響引起的、由其他隨機因素引起的等三部分。以分析控制變量各水平的交互作用對觀察變量均值有沒有產生顯著影響。

無論單因素方差分析還是多因素方差分析,它們都有一個共同的特點就是控制變量的各個水平是人爲可以控制的。但在許多實際問題中,有些因素的不同水平難以人爲控制,但它們確確實實對觀察變量產生較爲顯著的影響。在方差分析中,如果忽略這些因素的存在而單純去分析其他因素對觀察變量的影響,往往會誇大或縮小這些因素的影響作用,使得分析結論不準確。

爲了更加準確地研究控制變量不同水平對觀察變量的影響,應儘量排除其他能夠排除的因素對分析的影響作用。

協方差分析是將那些很難控制的因素作爲協變量,在排除協變量影響的條件下,分析控制變量對觀察變量的影響,從而更加準確地對控制因素進行評價。

迴歸分析

相關分析以現象之間是否相關、相關的方向和密切程度等爲主要研究內容,它一般不區分自變量與因變量,對各變量的構成形式也不涉及。其主要分析方法有繪製相關圖、計算相關係數和檢驗相關係數。迴歸分析包括對現象間具體的相關形式的分析,在迴歸分析中根據研究的目的,應區分出自變量和因變量,並研究確定自變量和因變量之間的具體關係的方程式。迴歸分析是將相關的因數進行測定,確定其因果關係,並以數學模型來表示其具體關係式,從而進行的各類統計分析。分析中所形成的這種關係式稱爲迴歸模型,其中以一條直線方程表示兩變量相關關係的模型叫一元線性迴歸模型;以曲線方程表示兩變量相關關係的模型叫曲線迴歸模型。

線性迴歸分析是側重考慮變量之間的數量變化規律,並通過一定的數學表達式,即迴歸方程,來描述這種關係,進而確定一個或幾個變量之間的變化對另一個變量的影響程度,爲預測提供科學的數學依據。

相關分析

相關分析就是一種測度事物間統計關係強弱的一種手段和工具,旨在衡量事物之間,或稱變量之間線性相關程度的強弱。

在所有的相關分析中,最簡單的是兩個因素之間的線性相關,它只涉及一個自變量和一個因變量。而且自變量數值發生隨之發生大致均等的變動,從平面圖上觀察其各點的分佈近似地表現爲一直線,這種相關關係被稱爲直線相關(也叫線性相關)。

線性相關分析是用相關係數來表示兩個變量間相互的直線關係,並判斷其密切程度的統計方法。

在線性相關分析中,兩個變量X和Y的值總是成對的出現的,形成直角座標系中的一個點。根據這些點在直角座標系的位置及緊密程度,可以判斷兩個變量的相關情況:正相關,負相關,無相關,非線性相關。

ABC分類分析

ABC分類法:又稱重點管理法、帕累託分析法,是根據事物在技術經濟方面的主要特徵,進行分類排隊,分清重點和一般,從而有區別地確定管理方式的一種分析方法。

ABC分析法就是用於從衆多任務中選擇有限數量的任務以取得顯著的整體效果的分析方法。它使用了帕累托法則,即關於做20%的事可以產生整個工作80%的效果的法則。一個系統中,少數事物具有決定性的影響。相反,其餘的絕大部分事物卻不太有影響。很明顯,如果將有限的力量主要(重點)用於解決這具有決定性影響的少數事物上,和將有限力量平均分攤在全部事物上。兩者比較,當然是前者可以取得較好的成效,而後者成效較差。ABC分析便是在這一思想的指導下,通過分析,將“關鍵的少數”找出來,並確定與之適應的管理方法,這便形成了要進行重點管理的A類事物。這就能夠以“一倍的努力取得7—8倍的效果”。

聚類分析

聚類分析正是統計學中研究“物以類聚”問題的一種方法,它屬於多元統計分析的範疇。

聚類分析實質是一種建立分類的方法,他能夠將一批樣本數據(或變量)按照它們在性質上的親疏程度在沒有先驗知識的情況下進行分類。這裏,一個類就是一個具有相似性的個體的集合,不同類之間有明顯的非相似性。在分類過程中,人們不必實現給出一個分類標準,聚類分析能夠從樣本數據出發,客觀地決定分類標準。

聚類分析的基本思想是在樣品之間定義距離,在變量之間定義相似係數,距離或相似係數代表樣品或變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,關係密切的類聚集到一個小的分類單位,然後逐步擴大,使得關係疏遠的聚合到一個大的分類單位,直到所有的樣品(或變量)都聚集完畢,形成一個表示親疏關係的譜系圖,依次按照某些要求對樣品(或變量)進行分類。

快速聚類法

快速聚類法先將樣品粗略地分一下類,然後再按照某中原則進行修正,直到分類比較合理爲止。快速聚類的過程大致可由下圖表示。理論研究及計算實踐都表明,快速聚類法是快速有效的聚類方法。

時間序列分析

時間序列是按時間順序排列的,隨時間變化且相互關聯的數據序列。這樣的例子在工程,經濟等各個領域都廣泛存在,而分析時間序列的方法構成數據分析的一個重要領域,即時間序列分析。時間序列分析法是依據預測對象過去的統計數據,找到其隨時間變化的規律,建立時序模型,以推斷未來數值的預測方法。其基本設想是:過去變化規律會持續到未來,即未來是過去的延伸。

時間序列通常含有三大特性:趨勢性,季節性與隨機性。

進度分析

進度分析是通過圖形的方式將計劃完成情況反映出來,如將生產的計劃完成情況反映出來,以便隨時掌握工業生產進度。

指標關聯分析

根據指標的相關性,分析指標相互影響程度。以杜邦分析爲例,可以變動樹節點的任一個指標,其他相關指標隨着變化,從而可以確定對關鍵指標的影響程度。

預警分析

預警分析是根據經濟運行數據和事前制定的指標閥值,做出預警分析,爲對生產經營及時提供預警信號。它將異常的數據從大量紛繁的數據當中及時挑出來,大大提高了我們數據處理的及時性和工作的有效性。

通過對每個指標設置臨界值,每個臨界值對應不同顏色,若指標超過臨界值,則以不同的顏色顯示出來,進行預警分析,提請分析人員注意。對告警監控的結果數據提供多種分析手段,發現告警數據背後的更深層次信息。提供告警規則集的定製功能,在更高的邏輯層次上封裝多條告警規則,實現更復雜的告警條件組合。

我們也常用儀表盤展示關鍵指標分析,用指針和刻度表示指標是否在正常範圍,如生產廢品率。該方法常用於構造管理駕駛艙,方便領導快速掌握關鍵指標運行情況。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章