RapidMiner 過濾/數集

這裏寫圖片描述

一、過濾範圍


概述
此操作符過濾指定範圍內實例。
描述
該操作符僅保持一個給定範圍(包括邊界)的實例。其它的實例將從輸入實例集刪除。
輸入
example set input: 實例集 : 實例集元數據 : #examples: = 0; #attributes: 0
輸出
example set output:
original:
參數
first example: 生成實例集的第一個實例。
last example: 生成實例集的最後一個實例。
invert filter: 表示是否過濾器應該被倒轉。

二、過濾器實例


概述
該操作符只允許滿足指定條件的實例。
描述
該操作符采用ExampleSet作爲輸入,並返回一個僅包含滿足條件的新ExampleSet。
通過指定執行條件和參數字符串,能應用任意過濾器。通過寫一個上面類的子類,並執行採用一個ExampleSet和一個參數字符串的兩個參數的構造函數,用戶能實現自己的條件。參數字符串被參數parameter_string指定。而不是使用一個預定義的條件,用戶可以用完全合格的類名定義自己的實現。

對於”attribute_value_condition”,該參數字符串必須具有形式:attribute op value,attribute是一個屬性的名稱,value是屬性能採用的值,op是一個二進制邏輯算符,類似於java中的算符,如大於或等於。請注意,你可以用||定義一個幾個條件的邏輯或,也可以用兩個 ampers and定義一個兩個條件的邏輯與,或者,你也可以在一行中簡單的應用幾個ExampleFilter操作符。也請注意,對於標稱屬性,你可以爲可能等於和不等於檢索的值定義正則表達式。

對於”unknown_attributes”,參數字符串必須爲空。該過濾器刪除具有缺失值或不合法值屬性的所有實例。
對於”unknown_label”,參數字符串也必須爲空。該過濾器刪除帶有未知標籤值的所有實例。
輸入
example set input: 期望 : 實例集元數據: #examples: = 0; #attributes: 0
輸出
example set output:
original:
參數
condition class: 條件的實現。
parameter string: 條件的參數字符串,如,對於屬性值過濾器’ attribute=value’ 。
invert filter: 表示是否接受通常被過濾的屬性。

三、採樣


概述
通過繪製分數從給定的實例創建一個樣本。
描述
簡單的採樣操作符。該操作符執行一個給定分數的隨機採樣。例如,如果輸入實例集包含5000個實例,並且樣本比率設置爲0.1,結果將大約有500個實例。
輸入
example set input: 期望 : 實例元數據 : #examples: = 0; #attributes: 0
輸出
example set output:
original:
參數
sample: 確定如何指定數據量。
balance data: 如果你需要爲某個類的實例採不同的樣本,你可以檢查這個。
sample size: 應採樣的實例數。
sample ratio: 應採樣的實例分數。
sample probability: 每個實例的採樣概率。
sample size per class: 每個類的絕對採樣大小。
sample ratio per class: 每個類的分數。
sample probability per class: 每個類的分數。
use local random seed: 表示是否使用一個局部隨機種子。
local random seed: 指定局部隨機種子。

四、採樣(自舉)


概述
通過用替換採樣,創建一個自舉樣本。
描述
這個操作符從給定的實例集構造一個自舉樣本。這意味着,帶有替換的採樣將被執行。通常的採樣大小是原始實例的數目。該操作符也提供了創建逆轉實例集的可能性,即一個包含所有實例的實例集不是自舉實例集的一部分。該逆轉實例集可能用於自舉驗證(和IteratingPerformanceAverage一起)。
輸入
example set input: 期望 : 實例集元數據 : #examples: = 0; #attributes: 0
輸出
example set output:
original:
參數
sample: 確定如何指定數據量。
sample size: 應該採樣的實例數。
sample ratio: 該比率確定新實例集的大小。
use weights: 如果選中,實例權重在自舉過程中將被認爲是否這樣的權重存在。
use local random seed: 表示是否使用局部隨機種子。
local random seed: 指定局部隨機種子。

五、採樣(自舉)


概述
通過用替換採樣,創建一個自舉樣本。
描述
這個操作符從給定的實例集構造一個自舉樣本。這意味着,帶有替換的採樣將被執行。通常的採樣大小是原始實例的數目。該操作符也提供了創建逆轉實例集的可能性,即一個包含所有實例的實例集不是自舉實例集的一部分。該逆轉實例集可能用於自舉驗證(和IteratingPerformanceAverage一起)。
輸入
example set input: 期望 : 實例集元數據 : #examples: = 0; #attributes: 0
輸出
example set output:
original:
參數
sample: 確定如何指定數據量。
sample size: 應該採樣的實例數。
sample ratio: 該比率確定新實例集的大小。
use weights: 如果選中,實例權重在自舉過程中將被認爲是否這樣的權重存在。
use local random seed: 表示是否使用局部隨機種子。
local random seed: 指定局部隨機種子。

六、拆分數據


概述
根據指定的相對大小,將一個實例集劃分成子集。
描述
將數據集劃分成定義的劃分,並傳送給子集。
輸入
example set: 期望 :實例集
輸出
partition 1:
參數
partitions: 應創建的劃分。
sampling type: 定義該操作符的採樣類型。
use local random seed: 表示是否使用局部隨機種子。
local random seed: 指定局部隨機種子。

七、排序


概述
該操作符將給定的ExampleSet排序。
描述
根據attribute_name參數指定的單個屬性,該操作符將給定的ExampleSet排序。根據屬性值的自然順序,或者是在增加的方向,或者是在減少的方向,該實例被排序,依賴於排序方向的設置。
輸入
example set input: 期望 : 實例集元數據: #examples: = 0; #attributes: 0
輸出
example set output:
original:
參數
attribute name: 表示應用於決定排序的屬性。
sorting direction: 表示排序的方向。

八、聚合


概述
執行一個從SQL(允許分組)得知的聚合函數(count,sum…)。
描述
該操作符從顯示任意聚集函數(如從SQL得知的SUM, COUNT 等。)結果的輸入實例集創建一個新實例集。在不同行的值被聚集到一個新行之前,改行可能已按多個屬性值分組(類似於從SQL得知的group-by子句)。在這種情況下,將爲每個組創建一個新行。
請注意,從SQL得知的HAVING子句能被一個跟隨這個的附加ExampleFilter操作符模擬。
輸入
example set input: 期望 : 實例集元數據: #examples: = 0; #attributes: 0
輸出
example set output:
original:
參數
aggregation attributes: 應該聚合的屬性。
group by attributes: 執行一個分組,通過名字與給定正則表達式匹配的屬性的值。
count all combinations: 表示屬性附近的分組值的所有可能組合被計數,即使它們不發生。請小心處理,因爲數量可能是巨大的。
only distinct: 表示是否只有聚合屬性的不同值的行應該用於計算聚合函數。
ignore missings: 表示是否缺失用該被忽視,聚合應該僅基於當前值。在後一種情況,該缺失值的顯式中,聚合值將會丟失。

九、轉置


概述
將輸入數據集進行矩陣轉置,行列對調。
描述
此操作符將輸入數據集進行轉置,行列對調。 此操作符非常類似於矩陣的轉置操作。

如果數據集中有角色爲id的屬性,ids將成爲新屬性的名稱,舊屬性的名稱將轉換爲新id屬性的值。 如果沒有其他的特殊角色存在,在轉換後所有的新屬性都是regular角色。也可以在轉置之後使用設置角色 操作符轉換屬性的角色。

如果所有舊屬性有相同的數據類型,那麼新屬性將沿用此數據類型。 否則,所有新屬性的數據類型將被設置爲”標稱值”。
此操作符在內存中生成一個數據集的副本,因此不建議在非常大的數據集上使用此操作符。
輸入
example set input: 期望 : 實例集元數據 : #examples: = 0; #attributes: 0
輸出
example set output:
original:

十、附加


概述
通過添加所有的實例集到一個合併集合中,從兩個或更多的兼容實例集構建合併實例集。
描述
通過把所有實例添加到包含所有數據行的一個實例表中,該操作符合並兩個或更多給定的實例集。請注意,新的實例表建在內存中,該操作符不適用於合併數據庫中的大型數據集表。在這種情況下,應使用聚集,連接等其它的預處理工具將表合併成一個表。
所有的輸入實例集必須提供相同的屬性簽名。這意味着,所有的實例集必須有相同數量的(特殊)屬性和屬性名。如果這是真,通過把所有表的所有實例集添加到一個隨後被返回的新集
合,該操作符僅合併所有實例集。
輸入
example set 1: 期望 :實例集(聚集)
輸出
merged set:
參數
datamanagement: 確定數據如何在內部表現。
merge type: 表示是否所有的輸入實例集或只有實例集的前兩個應該被合併。

十一、連接


概述
使用爲了區分相同集合的id 屬性,建立兩個集合的連接。
描述
用集合的id屬性構建兩個實例集的連接,即兩個實例集必須有一個相同id指明相同實例的id屬性。如果實例缺少,將拋出一個異常。結果實例集將包含相同數量的實例,除了兩個特徵集合的並集或並集列表(依賴於參數設置的雙重屬性將被刪除或重命名)。在刪除雙重屬性的情況下,兩個實例集的實例的屬性值必須相同,否則將拋出一個異常。

請注意,這種雙重屬性的檢查只適用於常規屬性。不存在於第一個實例集中的第二個輸入實例集的特殊屬性將簡單的被添加。如果它們存在,則簡單的跳過。
輸入
left: 期望 : 實例集
right: 期望 : 實例集
輸出
join:
參數
remove double attributes: 表示是否雙重屬性應該被刪除或重命名。
join type: 指定執行哪個連接。

十二、超集


概述
該操作符獲取兩個實例集,併爲每個實例集添加新特徵,以致兩個實例集由相同集合的特徵構成。
描述
該操作符獲得兩個實例集,並給每個實例集添加新的特徵,以使兩個實例集包含相同特徵的集合。這個集合是兩個原始特徵集合的並或超集。新特徵的值被設置爲缺省的。此運算符僅適用於常規屬性,並不會改變,添加,或修改現有的特殊屬性。
輸入
example set 1: 期望 : 實例集
example set 2: 期望 : 實例集
輸出
superset 1:
superset 2:

十三、並


概述
該操作符爲兩個輸入集創建並集/超集,並將兩個擴展集合併爲一個。
描述
該操作符執行兩個步驟:第一步,它創建兩個輸入實例集的特徵並集/超級,其相同特徵被保持並且兩個特徵集以特徵集和兩個實例集相等的方式被擴展。第二步,合併兩個實例集,並遞交生成的實例集。
輸入
example set 1: 期望 : 實例集,期望 : 實例集
example set 2:期望 : 實例集,期望 : 實例集
輸出
union:

By

——imbenben

Email:[email protected]

發佈了42 篇原創文章 · 獲贊 31 · 訪問量 10萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章