KNIME 數據分析平臺

這裏寫圖片描述


一、KNIME簡介

1.歷史發展

KNIME的發展始於2004年1月,由康斯坦茨大學的軟件工程師團隊作爲專有產品。由Michael Berthold領導的原始開發團隊來自硅谷的一家公司,爲製藥行業提供軟件。最初的目標是創建一個模塊化,高度可擴展和開放的數據處理平臺,從而輕鬆集成不同的數據加載,處理,轉換,分析和可視化探索模塊,而不必關注任何特定的應用領域。該平臺旨在成爲一個協作和研究平臺,也應作爲各種其他數據分析項目的集成平臺。

2.核心架構

KNIME允許用戶直觀地創建數據流(或管道),有選擇地執行一些或所有分析步驟,然後檢查結果,模型和交互式視圖。KNIME是用Java編寫的,並且基於Eclipse,並利用其擴展機制來添加提供附加功能的插件。核心版本已經包含數百個數據集成模塊(文件I / O,支持所有通用JDBC的通用數據庫管理系統的數據庫節點),數據轉換(過濾器,轉換器,組合器)以及常用的數據分析和可視化方法。使用免費的Report Designer擴展,KNIME工作流可用作數據集,以創建可導出爲doc,ppt,xls,pdf等文檔格式的報告模板。

KNIME的其他功能有:

KNIME核心架構允許處理僅受可用硬盤空間限制的大數據量(大多數其他開源數據分析工具在主存儲器中工作,因此僅限於可用RAM)。例如KNIME可以分析3億個客戶地址,2000萬個細胞圖像和1000萬個分子結構。

額外的插件允許整合文本挖掘,圖像挖掘以及時間序列分析的方法。

KNIME集成了各種其他的開源項目,例如從機器學習算法的Weka,統計包R項目,以及LIBSVM,JFreeChart的,ImageJ的和化學開發工具包.
1.KNIME分析平臺,KNIME®Analytics Platform是面向數據驅動創新的領先開放解決方案

3.官方概念

KNIME Analytics Platform擁有超過1000個模塊,數百個即可運行的示例,全面的集成工具,以及最廣泛的高級算法選擇,是任何數據科學家的完美工具箱。在不受限制的開放源代碼的穩定的過程是您的護照給全球數據科學家社區,他們的專業知識和積極的貢獻。

全功能,無限制,開源和免費的KNIME分析平臺是釋放單個數據科學家潛力的完美環境。當您準備好將分析提升到一個新的水平時,KNIME軟件將這些功能擴展到商業擴展,以增強協作,性能和生產力。無論您的數據需要什麼,KNIME商業軟件都可以帶你到那裏

4.產品系列

是從小型工作組擴展到全球企業的。

KNIME TeamSpace:
使組能夠共享數據,節點和工作流。

KNIME Server Lite:
在TeamSpace上構建以添加身份驗證和用戶權限,遠程和計劃執行。

KNIME WebPortal:
在Web瀏覽器中擴展具有發佈和工作流訪問的服務器精簡版。

KNIME服務器:
我們的旗艦協作產品,添加Web服務,工作流版本控制和商業支持以上列出的所有功能。

KNIME雲服務器:
將KNIME服務器帶到雲端的功能,無需內部部署的安裝或維護。


二、安裝及界面

安裝

KNIME爲免費開源且功能強大的數據分析平臺軟件,所以可以在官網下載最新或者穩定版本安裝,可以選擇不同的剷平安裝,只選擇KNIME分析平臺或者KNIME分析平臺及基本插件工具(約1.9G)
注:下載安裝時需要首先註冊登錄

2.界面介紹

作者使用的軟件是完整版分析平臺和所有分析插件工具,界面爲英文

軟件界面:

1.菜單欄

這裏寫圖片描述

Edit |

這裏寫圖片描述

View |

這裏寫圖片描述

Help |

這裏寫圖片描述

2.工具欄
新建 | 保存 | 撤銷 | 重做 | 節點 | 運行 | 等
(基本便捷的操作工具,可以在菜單欄中找到)

3.KNIME Explorer
EXAMPLES | LOCAL
(樹狀項目文件瀏覽器)

這裏寫圖片描述

4.Workflow Coach
File Read | Joiner | Reference Rew Filter | Cell Replacer等

這裏寫圖片描述

5.Node Repository
IO | Manipulation | View | Analytics | Database | Other Data Types | Structured Data | Scripting 等16類
(Node節點,分析的數據結構和算法都屬於節點,每個節點都有屬於自己獨特而豐富的屬性,該Repository 以樹狀結構,下面有上千種用於分析的節點)

這裏寫圖片描述

由於算法和數據的導入存儲轉變等分析工具齊全,所以節點過多不容易一一列舉,有時間我會做成思維導圖用MindMap或MindManage等做成可縮放樹狀列舉,並查找覈對爲中文科學術語和具體理論。

6.WorkSpace
項目節點工作空間

放置節點並對齊單個及相互之間進行合理操作,使得數據處理有條理,便於分析邏輯性和數據操作性增強,且每個節點的算法效率提高。

雙擊節點或者右擊選擇config配置數據,可以對該節點所存儲和處理的數據進行屬性和分析方法操作

每個節點下邊有三個狀態指示燈,無數據時第一個亮紅色,剛接入數據時第二個亮爲黃色,運行時若正常則第三個亮爲綠色,簡單地記爲路燈表示該節點中數據所處的狀態。

這裏寫圖片描述

8.Outline
工作空間概覽圖

可以實時知道所有節點的位置,儘管在工作空間被遮住或者隱藏

這裏寫圖片描述

9.Console
控制檯

這裏寫圖片描述

顯示所有操作的狀態情況
可以在工作空間對節點操作的過程中清晰每步操作的真實過程和結果反饋

10Node Description
節點描述

對選中的節點的屬性和使用情況作簡單明瞭的描述

這裏寫圖片描述

——imbenben

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章