RapidMiner 離散/缺失

這裏寫圖片描述

一、分級離散


—概述

將數值屬性離散到用戶定義的若干級別中。

—描述

這個操作符將所有的數值屬性離散成標稱屬性。通過簡單的分級,離散被執行,即相同大小,
指定數量的級別被創建,數值值被分類到這些級別中。跳過所有包含標籤的特殊屬性。

—輸入

example set input: expects: ExampleSetMetaData: #examples: = 0; #attributes: 0

—輸出

example set output:
original:
preprocessing model:

—參數

return preprocessing model: 表示是否也應該返回預處理模型。
create view: 創建視圖應用預處理,而不是改變數據。
attribute filter type: 條件指定該操作符選擇或影響哪些屬性。
attribute: 應選擇的屬性。
attributes: 應選擇的屬性。
regular expression: 屬性名保持不變的正則表達式。
use except expression: 如果啓用,指定正則表達式的異常可能被指定。雖然匹配第一個表達式,但匹配這個的屬性將被過濾。
except regular expression: 雖然匹配上述正則表達式,但屬性名正則表達式應該被過濾。
value type: 屬性的值類型。
use value type exception: 如果啓用,指定值類型的異常可能被指定。雖然匹配第一個指定的類
型,但該類型的屬性將被過濾。
except value type: 該值類型除外。
block type: 屬性的塊類型。
use block type exception: 如果啓用,指定塊類型的異常可能被指定。
except block type: 該塊類型除外。
numeric condition: 條件的參數字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被過濾掉的屬性。
include special attributes: 表示是否該操作符也適用於特殊屬性。否則,它們保持不變。
number of bins: 定義應該用於每個屬性的級別數。
define boundaries: 爲級別計算定義界限。
min value: 級別範圍的最小值。
max value: 級別範圍的最大值。
range name type: 表示是否應該使用包含界限的長的範圍名。
automatic number of digits: 表示是否應該爲範圍名自動確定數字位數。
number of digits: 用於間隔名稱的最小數字位數。

二、頻率離散


—概述

將數值屬性離散化到用戶定義的帶相同頻率的若干單元中。

—描述

這個操作符將數據集中的所有數值屬性離散成標稱屬性。通過相同頻率分級,離散被執行,即所有箱子的閾值用一種方式選擇,該方式爲所有的箱子包含相同數量的數值。通過參數,或者,可選的,作爲帶有非缺失值(爲每個單個屬性計算)的實例值的平方根被計算,箱子的數量被指定。跳過所有包含標籤的特殊屬性。請注意,可能得到不同數量實例的箱子。該情況肯可能發生,如果屬性值不唯一,由於該算法不能區分相同值的實例。

—輸入

example set input: 期望: 實例集元數據: #examples: = 0; #attributes: 0

—輸出

example set output:
original:
preprocessing model:

—參數

return preprocessing model: 表示是否也應該返回預處理模型。
create view: 創建視圖應用預處理,而不是改變數據。
attribute filter type: 條件指定該操作符選擇或影響哪些屬性。
attribute: 應選擇的屬性。
attributes: 應選擇的屬性。
regular expression: 屬性名保持不變的正則表達式。
use except expression: 如果啓用,指定正則表達式的異常可能被指定。雖然匹配第一個表達式,但匹配這個的屬性將被過濾。
except regular expression: 雖然匹配上述正則表達式,但屬性名正則表達式應該被過濾。
value type: 屬性的值類型。
use value type exception: 如果啓用,指定值類型的異常可能被指定。雖然匹配第一個指定的類型,但該類型的屬性將被過濾。
except value type: 該值類型除外。
block type: 屬性的塊類型。
use block type exception: 如果啓用,指定塊類型的異常可能被指定。
except block type: 該塊類型除外。
numeric condition: 條件的參數字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被過濾掉的屬性。
include special attributes: 表示是否該操作符也適用於特殊屬性。否則,它們保持不變。
use sqrt of examples: 如果爲真,單元數由非缺失值的平方根確定。
number of bins: 確定應該用於每個屬性的單元數。
range name type: 表示是否應該使用包含界限的長的範圍名。
automatic number of digits: 表示是否應該爲範圍名自動確定數字位數。
number of digits: 用於間隔名稱的最小數字位數(-1:自動確定最小數)。

三、大小離散


—概述

將數值屬性離散到用戶定義數量的包含實例的單元中。

—描述

這個操作符將數據集中的所有數值屬性離散成標稱屬性。通過將實例裝入相同大小的箱子,離散被執行。相同大小,指定數量的箱子被創建,數值值被分類到這些箱子中,以致所有的箱子包含相同數量的實例。跳過所有包含標籤的特殊屬性。

—輸入

example set input: 實例 : 實例集元數據: #examples: = 0; #attributes: 0

—輸出

example set output:
original:
preprocessing model:

—參數

return preprocessing model: 表示是否也應該返回預處理模型。
create view: 創建視圖應用預處理,而不是改變數據。
attribute filter type: 條件指定該操作符選擇或影響哪些屬性。
attribute: 應選擇的屬性。
attributes: 應選擇的屬性。
regular expression: 屬性名保持不變的正則表達式。
use except expression: 如果啓用,指定正則表達式的異常可能被指定。雖然匹配第一個表達式,但匹配這個的屬性將被過濾。
except regular expression: 雖然匹配上述正則表達式,但屬性名正則表達式應該被過濾。
value type: 屬性的值類型。
use value type exception: 如果啓用,指定值類型的異常可能被指定。雖然匹配第一個指定的類型,但該類型的屬性將被過濾。
except value type: 該值類型除外。
block type: 屬性的塊類型。
use block type exception: 如果啓用,指定塊類型的異常可能被指定。
except block type: 該塊類型除外。
numeric condition: 條件的參數字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被過濾掉的屬性。
include special attributes: 表示是否該操作符也適用於特殊屬性。否則,它們保持不變。
size of bins: 定義應該用於每個單元的實例數。
sorting direction: 表示是否該值應該以增序或降序存儲。
range name type: 表示是否應該使用包含界限的長的範圍名。
automatic number of digits: 表示是否應該爲範圍名自動確定數字位數。
number of digits: 用於間隔名稱的最小數字位數(-1:自動確定最小數)。

四、聲明缺失值


—概述

在所選的子集上聲明一個缺少的數值或標稱屬性值,它將被轉換爲 Double.NaN 。

—描述

用Double.NaN遍歷指定的子集,給定的值將被替換,因此,它將被後續操作符看作爲缺失值。

—輸入

example set input: 期望: 實例集元數據 : #examples: = 0; #attributes: 0

—輸出

example set output:
original:

—參數

attribute filter type: 條件指定該操作符選擇或影響哪些屬性。
attribute: 應選擇的屬性。
attributes: 應選擇的屬性。
regular expression: 屬性名保持不變的正則表達式。
use except expression: 如果啓用,指定正則表達式的異常可能被指定。雖然匹配第一個表達式,但匹配這個的屬性將被過濾。
except regular expression: 雖然匹配上述正則表達式,但屬性名正則表達式應該被過濾。
value type: 屬性的值類型。
use value type exception: 如果啓用,指定值類型的異常可能被指定。雖然匹配第一個指定的類型,但該類型的屬性將被過濾。
except value type: 該值類型除外。
block type: 屬性的塊類型。
use block type exception: 如果啓用,指定塊類型的異常可能被指定。
except block type: 該塊類型除外。
numeric condition: 條件的參數字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被過濾掉的屬性。
include special attributes: 表示是否該操作符也適用於特殊屬性。否則,它們保持不變。
mode: 選擇缺失值的值類型。
numeric value: 該參數定義缺失的數值值。
nominal value: 該參數定義缺失的標稱值。

五、填補數據空白


—概述

該操作符填補基於數據集的ID屬性的數據的差距。

—描述

基於數據集ID屬性,這個操作符填補數據空白。該ID屬性,要麼值類型爲“整數”,要麼是一個數據值類型。

該運算符執行下列步驟:
根據ID屬性,數據被分類
在連續ID值之間的所有當前距離被計算
所有距離的最大公約數(GCD)被計算
具有ID值的所有行被添加到數據集,該ID值是GCD的倍數,但是是缺省的。

請注意,在ID屬性旁邊的所有屬性值將有一個缺省值,該值被作爲下一步被取代。

—輸入

example set input: 期望 : 實例集元數據: #examples: = 0; #attributes: 0

—輸出

example set output:
original:

—參數

use gcd for step size: 表示是否應該計算生成的最大公約數,並使用它作爲所有數據點之間潛在的距離。
step size: 填充差距所使用的步長(僅在 GCD計算沒有被檢查時使用)。
start: 在第一個數據點被填補之前,是否該參數在開始定義差距(如果發生)。
end: 在最後一個數據點被填充之後,是否參數在結束處定義差距(如果發生)。

六、填補缺失值


—概述

通過爲缺失值應用一個學習模型替換實例中的缺失值。

—描述
通過每個屬性(標籤除外)的學習模式,操作符MissingValueImpution填補缺失值,並應用這些模式
到數據集。將被應用的操作符必須作爲內部操作符給定。爲了指定實例集的子集,缺省值應該被填充(例如,限制填充只能是數值類型),相應的屬性可能被過濾器參數選擇。請注意,根據內部操作符處理缺失值的能力,在某種情況下,該操作符不能填充所有缺失值。這種行爲會導致一個警告。因此,它對該操作符與隨後的MissingValueReplenishment相結合很有用。注意:此操作符目前正在研發,並不會在所有情況下正常工作。我們不建議在生產系統中使用該操作符。

—輸入

example set in: 期望 : 實例集

—輸出

example set out:

—參數

attribute filter type: 條件指定該操作符選擇或影響哪些屬性。
attribute: 應選擇的屬性。
attributes: 應選擇的屬性。
regular expression: 屬性名保持不變的正則表達式。
use except expression: 如果啓用,指定正則表達式的異常可能被指定。雖然匹配第一個表達式,但匹配這個的屬性將被過濾。
except regular expression: 雖然匹配上述正則表達式,但屬性名正則表達式應該被過濾。
value type: 屬性的值類型。
use value type exception: 如果啓用,指定值類型的異常可能被指定。雖然匹配第一個指定的類型,但該類型的屬性將被過濾。
except value type: 該值類型除外。
block type: 屬性的塊類型。
use block type exception: 如果啓用,指定塊類型的異常可能被指定。
except block type: 該塊類型除外。
numeric condition: 條件的參數字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被過濾掉的屬性。
include special attributes: 表示是否該操作符也適用於特殊屬性。否則,它們保持不變。
iterate: 在學習相應的概念和迭代後,立即計算缺失值。
learn on complete cases: 僅在瞭解完整情況的基礎上將學習概念歸咎於缺失值(應該用在學習方法不能處理缺失值的情況)。
order: 缺失值在其中被估計的屬性的順序。
sort: 用在順序策略中的排序方向。
use local random seed: 表示是否使用局部隨機種子。
local random seed: 指定局部隨機種子。

七、替換缺失值


—概述

替換實例中的缺失值。

—描述

替換示例中的缺失值。如果一個值丟失,它將被”minimum”, “maximum”, “average”, 和 “none”函數之一替換,這應用於實例集的非丟失屬性值。”none”指,該值不能被替換。使用參數列列表可以選擇函數。如果一個函數的名稱作爲關鍵字出現在該列表中,該值被用作爲函數名。如果屬性名稱不在列表中,默認參數指定的函數被使用。對於標稱屬性,模式用於平均,即在數據中最常發生的標稱值。對於標稱屬性和替換類型0,爲該屬性定義的第一個標稱值被使用。補充”值”表明,用戶
定義的參數應該用於替換。

—輸入

example set input: 期望 : 實例集元數據 : #examples: = 0; #attributes: 0

—輸出

example set output:
original:
preprocessing model:

—參數

return preprocessing model: 表示是否也應返回預處理模型。
create view: 創建視圖去應用預處理數據,而不是改變數據。
attribute filter type: 該條件指定該操作符選擇或影響哪個屬性。
attribute: 應該選擇的屬性。
attributes: 應該選擇的屬性。
regular expression: 屬性名應保持的正則表達式。
use except expression: 如果啓用,指定正則表達式的異常可能被指定。雖然匹配第一個表達式,匹配這個的屬性將被過濾。
except regular expression: 雖然匹配上述正則表達式,但屬性名正則表達式應被過濾。
value type: 屬性的值類型。
use value type exception: 如果啓用,指定值類型的異常可能被指定。雖然匹配第一個指定的類型,但該類型的屬性將被過濾。
except value type: 該值類型除外。
block type: 屬性的塊類型。
use block type exception: 如果啓用,指定塊類型的異常可能被指定。
except block type: 該塊類型除外。
numeric condition: 條件的參數字符串,如 ‘>= 5’
invert selection: 表示是否接受通常被過濾的屬性。
include special attributes: 表示是否該操作符也應適用於特殊屬性。否則,它們保持不變。
default: 適用於沒有被參數 ‘columns’顯示指定的所有列的功能。
columns: 沒列替換功能的列表。
replenishment value: 該值用於一些補充類型。

By

——imbenben
Email:[email protected]

發佈了42 篇原創文章 · 獲贊 31 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章