原创 kafka集羣搭建

個人博客原文鏈接 Kafka單機模式 1.解壓 tar -xvf kafka_2.11-0.8.0.0.tgz -C /home/hadoop/apps/ 2.配置環境變量 vi ~/.bashrc export KAFKA_HOME

原创 兩個步驟,通過正規渠道免費訪問和下載CNKI的資源

個人博客原文鏈接 主要步驟: 支付寶內搜索並關注“浙江圖書館”的生活號,點擊“服務”-》“服務大廳”-》“辦理讀者證(免費的,自定義讀者證的密碼)”,辦理完讀者證後可以去支付寶卡包查看讀者證的卡號。 打開浙江圖書館的官網鏈接(浙江圖

原创 數棧-離線數據開發學習筆記

個人博客原文鏈接 離線任務開發 離線任務開發模塊主要是設計數據計算流程,並實現爲多個相互依賴的任務,供調度系統自動執行的主要操作頁面。 對象 在數據開發階段,DTinsightBatch提供了4種對象:任務、腳本、資源和函數。它們之間

原创 數棧-數據開發規範

個人博客原文鏈接 術語解釋 ODS(Operational Data Store):操作型數據,即源數據,指結構與源系統基本保持一致的增量或全量數據。作爲DW數據的一個數據準備區,同時又承擔基礎數據記錄歷史變化。 CDM(Commo

原创 數棧-數據集成學習筆記

個人博客原文鏈接 簡介 數據集成模塊是在各個存儲單元之間執行數據交換的通道,具備分佈式底層架構,穩定高效、彈性伸縮的特點,致力於提供複雜網絡環境下、豐富的異構數據源之間數據高速穩定的數據移動及同步能力。爲了在DTinsightBatc

原创 Maven的pom.xml配置詳解

個人博客原文鏈接 本次主要介紹瞭如何在IntelliJ IDEA中正確配置pom.xml文件,通常至少要包含三個部分:項目座標和模型版本、引入依賴的jar包、構建項目的配置。 關於Maven的安裝和環境配置可以參考我之前的文章:Mav

原创 Spark環境搭建(多種模式)

個人博客原文鏈接 Spark環境的搭建相比於Hadoop集羣的搭建還是比較簡單的,而且跟Hadoop集羣的搭建流程也很相似,只是沒有Hadoop集羣那麼多的配置文件要修改。本文中,我將詳細介紹Spark的本地模式、Standalone

原创 Spark入門詳解(四)-網頁排名算子開發實例

個人博客原文鏈接 思路分析: 1.此操作需要用到兩個pairRDD,第一個pairRDD,key:當前頁面,value:當前頁面所含鏈接頁面的合集。 2.第二個pairRDD,key:當前頁面,value:當前頁面的權重 3.兩個pa

原创 Spark入門詳解(二)-Spark運行原理

個人博客原文鏈接 Spark運行過程 Spark應用程序以進程集合爲單位在分佈式集羣上運行,通過driver程序的main方法創建的SparkContext對象與集羣交互。 Spark大致運行流程: 1、Spark通過SparkCo

原创 Spark入門詳解(一)-Spark簡介

個人博客原文鏈接 簡介 Spark是基於內存計算的大數據分佈式計算框架。Spark基於內存計算,提供可交互查詢方式,提供近實時處理方式,同時保證了高容錯性和高可伸縮性,允許用戶將Spark部署在大量廉價硬件之上,形成集羣。 Spark

原创 Spark入門詳解(三)-RDD編程

個人博客原文鏈接 RDD簡介 RDD是彈性分佈式數據集,完全彈性的,如果數據丟失一部分還可以重建。有自動容錯、位置感知調度和可伸縮性。 RDD共包含兩種計算方式,一種是transformations轉換,一種是actions操作,每種

原创 Scala入門詳解(二)

個人博客原文鏈接 類 類的聲明與定義 /** * 類的聲明與定義 * Scala是一種純粹的面向對象編程語言,而又無縫地結合了命令式和函數式的編程風格。 * 在面向對象的語言有兩個重要的概念:類(class)和對象(obj

原创 Scala入門詳解(一)

個人博客原文鏈接 簡介 Scala是一種多範式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。Scala運行於Java平臺(Java虛擬機),併兼容現有的Java程序。 優點 優雅:這是框架設計師第一個要考慮的問

原创 Scala入門詳解(三)

個人博客原文鏈接 集合 List /** * List * 列表類似於數組,它們所有元素的類型都相同,但是它們也有所不同: * 列表是不可變的,值一旦被定義了就不能改變, * 其次列表具有遞歸的結構(也就是鏈接表結構)

原创 Scala入門詳解(四)

個人博客原文鏈接 IO /** * IO * Scala進行文件寫操作,直接用的都是java中的I/O類(java.io.File) */ object TestIO { def main(args: Array[St