盤點九種引人矚目的開源大數據技術

越來越多的公司開始聚焦於大數據技術領域,而開源恰恰是大數據技術的靈魂。以下將爲您介紹九大引人注目的開源大數據技術,請拭目以待:

1.Apache Hadoop

 

\

 

Apache hadoop是一個開源的分佈式計算框架,最初由Doug爲支持其開源Web搜索引擎Nutch所創立。通過集成MapReduce技術,Hadoop將大數據分佈到多個數據節點上進行處理。Hadoop遵循Apache 2.0許可證,可以輕鬆處理結構化、半結構化和非結構化數據,一舉成爲現在非常流行的大數據解決方案,

2.R語言

R語言是一種開源編程語言,專門爲數據統計和數據可視化而設計。R語言最初由Ross Ihaka和Robert Gentleman在奧克蘭大學設計出來,之後迅速成爲大數據領域的重要工具。R語言遵循GPL許可證。

3.Cascading

 

\

 

Cascading是一個針對Java開發人員的應用框架,可以快速、輕鬆地基於Apache Hadoop開發數據分析和數據管理應用。Cascading是Hadoop的抽象層,可以屏蔽MapReduce的複雜性,支持任何基於JVM的編程語言在Hadoop集羣上執行數據處理任務。Cascading最初由Chris Wensel開發,用於作爲MapReduce的替代API。Cascading遵循GNU許可證,一般用於廣告定位、日誌分析、Web數據挖掘和ETL應用。

4.Scribe

Scribe於2008年發佈,是一個由Facebook開發的日誌聚合服務器軟件,用於實時從大量服務器彙集日誌數據。Scribe遵循Apache 2許可證,擴展性極佳,每天可應對數百億日誌記錄的挑戰。

5.ElasticSearch

 

\

 

ElasticSearch是一款由Shay Banon開發,遵循Apache許可證的開源搜索服務器。ElasticSearch基於分佈式計算,對於實時搜索可以提供很好的可擴展性解決方案。許多公司已經對ElasticSearch表示認可,比如StumbleUpon和Mozilla。

6.Apache HBase

Apache HBase是一個使用Java語言編寫的、以谷歌BigTable技術爲基礎的開源非關係型列式分佈數據庫,可運行在HDFS文件系統之上。HBase提供了很好的存儲容錯能力和快速訪問大量稀疏文件的能力。HBase遵循Apache 2許可證。

7.Apache Cassandra

 

\

 

Cassandra是由Facebook開發的另一個開源NoSQL數據庫,遵循Apache 2許可證。由於對HBase的喜愛,Facebook開始逐漸放棄使用Cassandra,但許多公司,如Netflix依然使用Cassandra數據庫爲其後端流媒體服務提供動力。

8.MongoDB

 

\

 

MongoDB是一個基於分佈式文件存儲的數據庫,由C++語言編寫。旨在爲Web應用提供可擴展的高性能數據存儲解決方案。MongoDB是非常流行的JSON文檔式NoSQL數據庫,許多公司都非常認同MongoDB。MTV Networks、craigslist和迪斯尼互動傳媒集團,紐約時報以及Etsy都是MongoDB的客戶。MongoDB遵循GNU Affero通用許可證,語言驅動遵循Apache許可證,10gen公司提供商業化的MongoDB許可證。

9.Apache CouchDB

CouchDB也是一個流行的開源NoSQL數據庫,它以文檔方式(JSON)存儲數據。CouchDB使用JavaScript語言作爲查詢語言,集成MapReduce技術。IBM Lotus Notes的開發人員Damien Katz在2005年構建了CouchDB,用於大規模對象的數據存儲系統。CouchDB遵循Apache 2許可證,英國廣播公司(BBC)使用CouchDB存儲動態內容,瑞士瑞信銀行(Credit Suisse)的商品部也採用了它。

發佈了92 篇原創文章 · 獲贊 61 · 訪問量 60萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章