原创 懂java的人學大數據更容易上手?

最近兩年,大數據這個詞非常火,以大數據爲基礎和核心的人工智能也以迅雷不掩耳之勢蔓延到各個領域,無人駕駛,無人超市,智慧城市等等。毫無疑問,火爆的大數據已然成爲當今互聯網世界中的新寵兒,創造着巨大的商業價值,是當今互聯網巨頭的必爭之地。 目

原创 大數據對你來說意味着什麼?

毋庸置疑,現如今是屬於大數據(Big Data)的,革命性的時代。從社交媒體到企業,每時每刻都在產生大量的數據。無所作爲,從而把這樣的寶藏白白浪費掉是及其愚蠢的。企業已經學會了收集大數據以獲取更高的利潤,並提供更好的服務以及更深入地瞭解

原创 大數據處理的開源框架:概述

本文討論大數據處理生態系統和相關的架構棧,包括對適應於不同任務的多種框架特性的調研。除此之外,文章還從多個層次對框架進行深入研究,如存儲,資源管理,數據處理,查詢和機器學習。 使用門檻的降低是互聯網上數據最初增長的驅動力。隨着智能手機和平

原创 Spring 數據處理框架的演變

定量分析的成敗在很大程度上取決於採集,存儲和處理數據的能力。若能及時地向業務決策者提供深刻並可靠的數據解讀,大數據項目就會有更多機會取得成功。 如今,爲數據處理設計合適的架構需要下很大工夫。數據處理主要包括 3 個方面: 批處理:批量處理

原创 Hadoop與Spark以及那些坑

這兩天在搭建Hadoop與Spark的平臺,要求是能夠運行Spark,並且用python編程。筆者也不打算寫一個很詳細的細節教程,簡單做一個筆記blog。 1.選擇         筆者一開始是在虛擬機上搭建的,創建了三個ubuntu虛擬

原创 談談spark和hadoop的差異

談到大數據,相信大家對Hadoop和Apache Spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上,並沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有什麼異同。 解決問題的層面不一樣 首先,Hadoop和Apa

原创 大數據技術分析:HDFS分佈式系統介紹!

HDFS主要用於最初由Yahoo提出的分佈式文件系統,以下它的主要用途: 1、保存大數據 2、提供快速讀取大數據的能力 Heroop幀的主要特徵是通過將數據和計算分佈在集羣中的各節點服務器來實現分佈式計算的目的。在計算邏輯和所需數據接近這

原创 使用Hadoop分析大數據

大數據由於其龐大的規模而顯得笨拙,並且大數據需要工具進行高效地處理並從中提取有意義的結果。Hadoop是一個用於存儲,分析和處理數據的開源軟件框架和平臺。本文是Hadoop如何幫助分析大數據的初學者指南。 大數據(Big Data)是一個

原创 數據中心、雲計算、大數據之間的區別與聯繫

不少人會把數據雲計算中心、數據中心、大數據搞混淆,覺得三者是一樣的產品,其實有顯著地區別,數據中心機房是一整套複雜設施,如今,雲計算即將成爲信息社會的公共資源,而數據中心是支撐雲計算服務的基礎設施,所以自從雲計算橫空出世後,一切信息技術開

原创 大數據架構最佳實踐

軟件供應商的營銷部門已經做好了讓大數據成爲主流的工作,無論這會產生怎樣的影響。如果我們使用大數據,我們可以實現任何承諾過的前景; 商業上的洞察力或是實現擊敗我們的競爭對手。但是,現在還沒有公開的大數據的成功實現。問題是:爲什麼沒有呢?顯然

原创 數據倉庫工程師、大數據開發工程師、BI工程師、ETL工程師之間有什麼區別?

商務智能。商務智能工程師是商業智能行業的工程師。從需求分析師到數據倉庫架構師、ETL工程師、數據分析工程師、報表開發工程師、數據挖掘工程師等,都可以稱爲BI工程師。 ETL工程師:從事系統編程、數據庫編程和設計,掌握各種常用編程語言的專業

原创 Hadoop/R 集成 I:流處理

如果您平常一直使用MapReduce框架,那麼您可能知道"單詞計數示例"是MapReduce的相當於“Hello World!”的一個例子。在之前的帖子中,我試圖稍作改動,但現在也有一個同樣簡單的問題 - 按州來計算,計算房利美(Fann