RapidMiner 異常/隨機

一、檢測異常（密度）

1.概述

在基於數據密度的給定實例集中識別異常。

2.描述

這個操作符是一個DB異常檢測算法，它爲傳遞給此操作符的一個ExampleSet計算DB(p,D)-異常。根據Knorr 和Ng ，DB(p,D)-異常是基於距離的異常。一個DB(p,D)-異常是至少佔所有對象的p部分中的一個對象，它比距離D更遙遠。它執行一個全局異常搜索。當前，此操作符支持餘弦，正弦或平均距離，以及由相應參數指定的歐幾里得距離。這個操作符采用兩個其他的實數值參數p和D。根據這些參數，在傳遞給此操作符的ExampleSet中，搜索對象將被創建。這些搜索對象將被添加到搜索空間，它們將根據DB(p,D)方案進行異常搜索。
異常狀態（原本是布爾類型）被寫入一個新的特殊屬性“異常”中，並和實例集一起被傳遞。

3.輸入

example set input: 期望: 實例集元數據: #examples: = 0; #attributes: 0

4.輸出

example set output:
original:

5.參數

distance: 對象的距離。
proportion: 與 D 有關的對象的比例。
distance function: 表示哪個距離函數將用於計算兩個對象之間的距離。

二、檢測異常（距離）

1.概述

在基於到它們 k 最近鄰距離的給定實例集中識別 n 個異常。

2.描述

按照Ramaswamy， Rastogi 和Shim在“大型數據集挖掘異常的高效算法”推薦的異常檢測方法，這個操作符執行一個D^k_n異常搜索。它主要是一種基於距離測量的統計異常搜索，類似於Knorr 和NgDB(p,D)-異常搜索。但它通過第k個最近鄰使用距離搜索，因此，它也實現了一些局部性的排序。
該方法聲明，到第k個最近鄰域有最大距離的對象有可能是常，分別對應於它們的數據集，因爲它可以假設，這些對象比一般的對象有更多的稀疏鄰域。由於根據它們的第k個近鄰的距離，這有效的在數據集中提供了一個簡單的所有對象的排列，用戶可以在數據集中指定n個對象成爲top-n異常。這個操作符支持餘弦，正弦或平均距離，以及能由距離參數指定的歐幾里得距離。這個操作符需要一個實例集，在一個新的特殊異常表明真（異常）和假（沒有異常）的布爾值屬性中傳遞一個布爾
top-n D^k異常狀態。

3.輸入

example set input: 期望 : 實例集元數據: #examples: = 0; #attributes: 0

4.輸出

example set output:
original:

5.參數

number of neighbors: 爲將被分析的第 k 個最近鄰指定 k 值。（默認值是10，最小值設置爲1，最大值設置爲1萬）
number of outliers: 將要查找的前 n 個異常。（默認值設置爲10，最小值設置爲1（內部原因），最大值設置爲1萬）
distance function: 表示哪個距離函數將用於計算兩個對象之間的距離。

三、傅里葉變換

1.概述

使用標籤作爲每個屬性的功能，並計算傅里葉轉換作爲新屬性。傅立葉變換，表示能將滿足一定條件的某個函數表示成三角函數（正弦和/或餘弦函數）或者它們的積分的線性組合。在不同的研究領域，傅立葉變換具有多種不同的變體形式，如連續傅立葉變換和離散傅立葉變換。最初傅立葉分析是作爲熱過程的解析分析的工具被提出的。

2.描述

爲輸入實例集的每個屬性創建一個包含傅里葉變換結果的新實例集。Fourier transform或Transformée de Fourier有多箇中文譯名，常見的有“傅里葉變換”、“付立葉變換”、“傅立葉轉換”、“傅氏轉換”、“傅氏變換”、等等。爲方便起見，本文統一寫作“傅里葉變換”。

傅立葉變換是一種分析信號的方法，它可分析信號的成分，也可用這些成分合成信號。許多波形可作爲信號的成分，比如正弦波、方波、鋸齒波等，傅立葉變換用正弦波作爲信號的成分。

定義：
f(t)是t的周期函數，如果t滿足狄裏赫萊條件：在一個以2T爲週期內f(X)連續或只有有限個第一類間斷點，附f（x）單調或可劃分成有限個單調區間，則F（x）以2T爲週期的傅里葉級數收斂，和函數S（x）也是以2T爲週期的周期函數，且在這些間斷點上，函數是有限值；在一個週期內具有有限個極值點；絕對可積。則有下圖①式成立。稱爲積分運算f(t)的傅立葉變換，
②式的積分運算叫做F(ω)的傅立葉逆變換。F(ω)叫做f(t)的像函數，f(t)叫做
F(ω)的像原函數。F(ω)是f(t)的像。f(t)是F(ω)原像。
①傅立葉變換
②傅立葉逆變換

傅里葉變換在物理學、電子類學科、數論、組合數學、信號處理、概率論、統計學、密碼學、聲學、光學、海洋學、結構動力學等領域都有着廣泛的應用（例如在信號處理中，傅里葉變換的典型用途是將信號分解成頻率譜——顯示與頻率對應的幅值大小）。

3.輸入

example set input: 期望 : 實例集元數據: #examples: = 0; #attributes: 0

4.輸出

example set output:
original:
四、主成分分析

1.概述

使用協方差矩陣執行一個主成分分析（PCA）。

2.描述

此操作符使用協方差矩陣執行一個主成分分析（PCA）。當保留主成分的最佳數時，用戶可以指定一定數量的偏差去覆蓋原始數據。用戶也可以手動的指定主成分的最佳數。此操作符輸出一個PCAModel。用ModelApplier，你可以改變功能。

3.輸入

example set input: 期望 : 實例集

4.輸出

example set output:
original:
preprocessing model:

5.參數

dimensionality reduction: 表示應使用哪個類型的降維。
variance threshold: 保持累計方差小於給定閾值的所有成分。
number of components: 保持成分的數量。
五、K-NN

1.概述

一個基於顯示相似性測量的 k-NN 分類。

2.描述

一個k最鄰近實現。

3.輸入

training set: 期望 : 實例集，期望 : 實例集

4.輸出

model:
exampleSet:

5.參數

k: 使用的最近鄰數。
weighted vote: 表示是否選票應該用相似性加權。
measure types: 測量類型。
mixed measure: 選擇測量。
nominal measure: 選擇測量。
numerical measure: 選擇測量。
divergence: 選擇發散。
kernel type: 內核類型。
kernel gamma: 內核參數 gamma。
kernel sigma1: 內核參數 sigma1。
kernel sigma2: 內核參數 sigma2。
kernel sigma3: 內核參數 sigma3。
kernel degree: 內核參數 degree。
kernel shift: 內核參數 shift。
kernel a: 內核參數 a。
kernel b: 內核參數 b。
六、樸素貝葉斯方法

1.概述

使用估計的正態分佈，返回分類模型。

2.描述

樸素貝葉斯學習。

3.輸入

training set: 期望 : 實例集

4.輸出

model:
exampleSet:

5.參數

laplace correction: 使用拉普拉斯校正，以防止零概率的高影響。
七、CHAID

1.概述

學習一個基於卡方屬性相關性測試的修剪決策樹。

2.描述

CHAID決策樹學習者工作原理類似於DecisionTreeLearner ，有一個例外：它使用卡方標準，而不
是信息增益或增益比率標準。

3.輸入

training set: 期望 : 實例集

4.輸出

model:
exampleSet:

5.參數

minimal size for split: 允許分裂的節點的最小尺寸。
minimal leaf size: 所有葉子的最小尺寸。
minimal gain: 爲了產生一個分裂必須達到的最小增益。
maximal depth: 樹的最大深度（-1：無邊界）。
confidence: 用於修剪的封閉式錯誤計算的置信度水平。
number of prepruning alternatives: 當預修剪阻止一個分裂時，選擇的節點數。
no pre pruning: 禁止提前修剪，並提供一個沒有任何預修剪的樹。
no pruning: 禁止修剪，並提供一個未修剪的樹。
八、決策樹樁

1.概述

學習一個決策樹的根節點。當提高的時候很有用。

2.描述

該操作符學習決策樹樁，即一個小的僅有一個單一分支的決策樹。該決策樹樁適用於數值和標稱屬性。

3.輸入

training set: 期望 : 實例集

4.輸出

model:
exampleSet:

5.參數

criterion: 爲選擇的屬性和數值分裂指定使用的標準。
minimal size for split: 允許分裂的節點的最小尺寸。
minimal leaf size: 所有樹葉的最小尺寸。
minimal gain: 爲了產生分裂必須達到的最小增益。
九、決策樹

1.概述

生成決策樹去分類標稱數據。

2.描述

該操作符從標稱值和數值數據得知決策樹。決策樹是強大的分類方法，往往也可以很容易被理解。爲了分類實例，樹自底向上被遍歷。決策樹的每個節點都標有一個屬性。實例的屬性值決定採用哪個結果邊界。對於標稱屬性，我們每一個可能的屬性值有一個外邊界，對於數值屬性，外邊界用不
相交的範圍標記。該決策樹學習者和Quinlan’s C4.5 或CART工作原理類似。粗略的說，樹歸納算法的工作原理如下。在某一階段，當一個新的節點被創建時，一個屬性被挑選去儘量增大關於分配給特殊子樹的實例節點的區別能力。通過用戶選擇的標準（信息增益，增益比率，增益索引等）測量區別能力。該算法在不同情況下停止：無屬性到達一定的閾（minimum_gain）。到達最大深度。在當前子樹中有少於一定數量的實例(minimal_size_for_split)。最後，樹被修剪，即整個樹的不增加區別能力的樹葉將被刪除。

3.輸入

training set:期望 : 實例集

4.輸出

model:
exampleSet:

5.參數

criterion: 爲選擇的屬性和數值分裂指定使用的標準。
minimal size for split: 允許分裂的節點的最小尺寸。
minimal leaf size: 樹葉的最小尺寸。
minimal gain: 爲了產生一個分裂必須達到的最小增益。
maximal depth: 樹的最大深度（-1：無邊界）。
confidence: 用於修剪的封閉式錯誤計算的置信度等級。
number of prepruning alternatives: 當預先修剪將阻止一個分裂時，可選擇的節點數。
no pre pruning: 禁止提前修剪，並提供一個沒有任何預修剪的樹。
no pruning: 禁止修剪，並提供一個未修剪的樹。
十、ID3

1.概述

僅根據標稱屬性學習未修剪的決策樹。

2.描述

該操作符僅使用標稱屬性學習未修剪的決策樹。決策樹是強大的分類方法，往往也很容易被理解。該決策樹學習者工作原理類似於Quinlan’s ID3。

3.輸入

training set: 期望 : 實例集

4.輸出

model:
exampleSet:

5.參數

criterion: 爲屬性選擇和數值分裂指定使用的標準。
minimal size for split: 允許分裂的節點的最小大小。
minimal leaf size: 所有樹葉的最小大小。
minimal gain: 爲了產生一個分裂必須達到的最小增益。
十一、隨機森林

1.概述

學習一組隨機樹，即對於每個分裂，僅屬性的隨機子集可用。生成的模型是所有樹的公認模型。

2.描述

該操作符學習一個隨機森林。生成的森林模型包含幾個單一的隨機樹模型。

3.輸入

training set: 期望 : 實例集

4.輸出

model:
exampleSet:

5.參數

number of trees: 學習的隨機樹的數目。
criterion: 爲選擇的屬性和數值分裂指定使用的標準。
minimal size for split: 允許一個分裂的節點的最小大小。
minimal leaf size: 所有葉子的最小大小。
minimal gain: 爲了生成一個分裂必須達到的最小增益。
maximal depth: 樹的最大深度（-1：無邊界）。
confidence: 用於修剪的錯誤估計的置信等級。
number of prepruning alternatives: 當預修剪將阻止一個分裂時，嘗試的節點數。
no pre pruning: 使每個修剪無效，並遞交一個沒有任何修剪的樹。
no pruning: 使修剪無效，並遞交一個未修剪的樹。
guess subset ratio: 表示 log(m) + 1 功能被使用，否則將指定一個比率。
subset ratio: 隨機選擇的用於測試的比率。
use local random seed: 表示是否應該使用一個局部隨機種子。
local random seed: 指定局部隨機種子。
十二、隨機樹

1.概述

學習一個單個的決策樹。僅每個分裂的隨機子集可用。

2.描述

該操作符根據標稱和數值數據學習決策樹。決策樹是強大的分類方法，往往也可以很容易被理解。隨機樹學習者工作原理類似於Quinlan’s C4.5 或 CART，但在它被應用之前，它選擇一個隨機屬性的子集。子集的大小由參數subset_ratio定義。

3.輸入

training set: 期望 : 實例集

4.輸出

model:
exampleSet:

5.參數

criterion: 爲選擇的屬性和數值分裂指定使用的標準。
minimal size for split: 允許一個分裂的節點的最小大小。
minimal leaf size: 所有葉子的最小大小。
minimal gain: 爲了生成一個分裂必須達到的最小增益。
maximal depth: 樹的最大深度（-1：無邊界）。
confidence: 用於修剪的錯誤估計的置信等級。
number of prepruning alternatives: 當預修剪將阻止一個分裂時，嘗試的節點數。
no pre pruning: 使每個修剪無效，並遞交一個沒有任何修剪的樹。
no pruning: 使修剪無效，並遞交一個未修剪的樹。
guess subset ratio: 表示 log(m) + 1 功能被使用，否則將指定一個比率。
subset ratio: 隨機選擇的用於測試的比率。
use local random seed: 表示是否應該使用一個局部隨機種子。
local random seed: 指定局部隨機種子。

——imbenben

benben-miao

發佈了42 篇原創文章 · 獲贊 31 · 訪問量 10萬+

私信關注