原创 大數據學習心得

一、 概述1大數據簡介 1.1起源 “大數據“,近幾年來最火的詞之一。雖然大數據這個詞的正式產生也就10年左右,但對大數據分析卻早就有之。早在互聯網初期,就有很多公司通過計算機技術對大量的分析處理,比如各個瀏覽引擎。然而,大數據的真正提出卻

原创 大數據DMP畫像系統

內容介紹一、目標1、掌握畫像標籤開發技巧2、掌握數據挖掘技巧3、瞭解業內畫像和DMP系統的架構和開發4、大數據結合業務場景落地系統開發要求涉及的技術要點:spark 、elasticsearch、hadoop 、hive 、LR GBDT等

原创 大數據開發跟大數據分析的區別是什麼?

做大數據開發好還是大數據分析比較好一些?哪個薪資高?零基礎學習大數據開發,還是大數據分析?哪方面比較好?今天我們來從技術角度和薪資角度全面進行分析,方便你的選擇。技術區別在做選擇之前,需要了解兩者的不同,然後再結合自身已有的基礎和興趣做決定

原创 spark大數據架構初學入門基礎詳解

Spark是什麼 a) 是一種通用的大數據計算框架b) Spark Core 離線計算        Spark SQL 交互式查詢 Spark Streaming 實時流式計算 Spark MLlib 機器學習 Spark GraphX

原创 Spark修煉之道(進階篇)——Spark入門到精通:第四節 Spark編程模型(一)

本節主要內容Spark重要概念彈性分佈式數據集(RDD)基礎1. Spark重要概念本節部分內容源自官方文檔:http://spark.apache.org/docs/latest/cluster-overview.html(1)Spark

原创 初識Spark之 Spark API

API應用可以通過使用Spark提供的庫獲得Spark集羣的計算能力,這些庫都是Scala編寫的,但是Spark提供了面向各種語言的API,例如Scala、Python、Java等,所以可以使用以上語言進行Spark應用開發。 Spark的

原创 用戶畫像——ID-Mapping

講解ID-Mapping算法之前,先說幾個重要概念:MAC(Media Access Control),MAC位址,爲網卡的標識,唯一標識網絡設備。IMEI(International Mobile Equipment Identity),

原创 空氣質量數據網頁爬蟲加數據處理

Python這門語言因其簡單強大已經火了很久了,但我接觸的比較晚,前幾個月因爲一篇博客開始初步瞭解這門語言,並且之後模仿某位北郵的前輩的微博寫了一個新浪微博的爬蟲這裏給出鏈接:python編寫的新浪微博爬蟲當時爲了能夠順便把從微博上抓下來的

原创 Spark 實踐 - 客戶端使用spark-submit提交Spark應用程序及注意事項

一、客戶端提交spark應用程序        是指在spark集羣之外的機器,提交spark應用程序到spark集羣運行。二、spark-submit提交程序語法        使用spark-submit工具提交Spark應用程序的語法

原创 大數據實時計算引擎 Flink 實戰與性能優化

專欄亮點全網首個使用最新版本 Flink 1.9 進行內容講解(該版本更新很大,架構功能都有更新),領跑於目前市面上常見的 Flink 1.7 版本的教學課程。包含大量的實戰案例和代碼去講解原理,有助於讀者一邊學習一邊敲代碼,達到更快,更深

原创 【Flink】Flink對於遲到數據的處理

設置允許延遲的時間是通過allowedLateness(lateness: Time)設置保存延遲數據則是通過sideOutputLateData(outputTag: OutputTag[T])保存獲取延遲數據是通過DataStream.

原创 大數據和數據分析有什麼區別?

企業可以通過手中的數據,或挖掘用戶需求,或優化產品,或搶奪市場,或減少運營成本等等……一個優秀的數據分析師能爲企業帶來巨大的潛在利潤。隨着企業對數據分析師的需求逐年增加,數據分析師的薪酬待遇也水漲船高。當我們打開招聘網站,看着數據分析師誘人