到底什麼是大數據?新手學習大數據的路徑是什麼?

大數據具體是什麼意思?雖然都知道高薪,但如何學習大數據呢?有哪些學習路徑和方法?今天我們就來具體看一下

大數據是什麼?

來看看維基百科的定義

大數據(英語:Big data或Megadata),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、並整理成爲人類所能解讀的信息。

在總數據量相同的情況下,與個別分析獨立的小型數據集相比,將各個小型數據集合並後進行分析可得出許多額外的信息和數據關係性,可用來察覺商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數據集盛行的原因。

上面那段看起來比較繞,可以一起看看通俗解釋:

如果你是負責做淘寶網的產品推薦工作的,想知道購買首飾的用戶是否也會購買電子產品,然後再決定是否給三星做推薦。

在這種條件下就需要調用前一段時間(例如一年)的用戶數據,只有通過大量數據的證明才能確認兩者是否有關聯性,如果使用傳統數據處理方法,就會耗費大量時間,等確認正相關的時候,三星的促銷期都已經過去了,而像淘寶、京東等每天數據量動輒以TB計數,要迅速處理、分析並給出精準恰當的投放推薦,這就是大數據的作用。

.在入門學習大數據的過程當中有遇見學習,行業,缺乏系統學習路線,系統學習規劃,歡迎你加入我的大數據學習交流裙:××× ,裙文件有我這幾年整理的大數據學習手冊,開發工具,PDF文檔書籍,你可以自行下載。

與大數據相關的工作?

在美國,與大數據相關的職位統稱爲“數據科學家”;而在國內,與大數據相關的崗位則細分得多,主要分爲數據分析、數據挖掘、數據工程師、數據架構師四類。

•數據分析:運用工具,提取、分析、呈現數據,實現數據的商業意義

•數據挖掘:機器學習,算法實現

•數據工程師:開發運用簡單數據工具,實現數據建模等功能,需要業務理解

•數據架構師:高級算法設計與優化;數據相關系統設計與優化,有垂直行業經驗最佳

關於大數據學習

很多人在問大數據處理技術怎麼學習?

在這裏,對於大數據工程師,我們給出一個具體的學習路徑

java基礎----linux----hadoop-----hive、hbase----scala—spark

首先我們要學習Java語言和Linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前後。

Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,學習大數據要學習那個方向呢?

只需要學習Java的標準版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技術在大數據技術裏用到的並不多,只需要瞭解就可以了;

當然Java怎麼連接數據庫還是要知道的,像JDBC一定要掌握一下,有同學說Hibernate或Mybites也能連接數據庫啊,爲什麼不學習一下,我這裏不是說學這些不好,而是說學這些可能會用你很多時間,到最後工作中也不常用,我還沒看到誰做大數據處理用到這兩個東西的,當然你的精力很充足的話,可以學學Hibernate或Mybites的原理,不要只學API,這樣可以增加你對Java操作數據庫的理解,因爲這兩個技術的核心就是Java的反射加上JDBC的各種使用。

Linux:因爲大數據相關軟件都是在Linux上運行的,所以Linux要學習的紮實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟件的運行環境和網絡環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集羣。還能讓你對以後新出的大數據技術學習起來更快。

其他的技術順次學習就可以了。

另外2個基礎的學科,也是必須要修煉的:

•統計學

•計算機(或許還能加上點機器學習的知識)

這兩門學科是大數據基礎中的基礎,跨過這兩道坎就有了從事大數據工作的資格。所以也有人說,大數據工程師是一個精通統計學的程序員,而不會編程的統計狗也不是好的大數據專家。

統計學:多元統計分析、應用迴歸

計算機:R、python、SQL、數據分析、機器學習

matlab和mathematica兩個軟件也是需要掌握的,前者在實際的工程應用和模擬分析上有很大優勢,後者則在計算功能和數學模型分析上十分優秀,相互補助可以取長補短。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章