原创 Weibo單節點爬蟲設計

微博目前開發數據接口,如果用於商業用途最好通過此接口來獲取微博數據。作者爬去少量數據,僅用於研究學習。

原创 RSA 加密算法備忘

import java.io.UnsupportedEncodingException; import java.math.BigInteger; import java.security.InvalidKeyException

原创 Phantomjs服務模式:從性能併發方面談起

  作爲比較好的動態網頁爬蟲手段,phantomjs在許多方面令人比較滿意。調用Phantomjs的方式,一般有如下幾種情況。 命令行模式   在CMD或Shell中,直接輸入phantomjs回車,進入命令行模式,能夠完成各種操

原创 記一個Spark模塊Hive-thriftserver編譯報錯

[ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first) on project

原创 微博分析報告學習

一份微博分析報告, 本文主要將網頁內容截屏爲圖片,主要用於學習,有興趣的同學可以到原文微博傳播效果分析

原创 開源數據流處理

  隨着公司規模增長,他們的工作流更加複雜,包含更多子處理過程以及帶有複雜的依賴關係,這將導致更多監控、問題以及運維工作。如果沒有一個清晰的數據血緣關係,可能會引起引用鏈問題和操作元數據丟失。這就是爲什麼DAGs、數據流和工作流管

原创 Spark RDD/DataFrame map保存數據的兩種方式

使用Spark RDD或DataFrame,有時需要在foreachPartition或foreachWith裏面保存數據到本地或HDFS。 直接保存數據 當然如果不需要在map裏面保存數據,那麼針對RDD可以有如下方式 val

原创 HTML全文轉化爲PDF技術選型研究與流行方法彙總

  在實際也無需求中,需要用到網頁快照功能,並能夠查看歷史網頁快照功能,因此需要實現網頁格式的固化保存,保存爲圖片或PDF文件的形式。 技術研究   做這樣研究了網上許多技術,大都存在各種各樣的缺陷。 1.html2canvas&

原创 CDH Manager開啓alert功能

  使用CDH時,需要針對多個項目進行監控,但又不想太麻煩使用專業的監控工具,所以只使用CDH自帶的CDH Manager來查看相關的監控參數,並開啓郵件告警通知功能。   雖然最終搞定了,但還是需要好好記錄下來。 網絡端口確定

原创 Linux多版本JDK刷新JAVA_HOME

  使用Linux/Mac時間,有時候存在多個版本的JDK,而某些編譯需要java_home設置,單純的java/javac/javah無法滿足需求。因此在變更java的時候,期望可以自動設置java_home的路徑。 使用lin

原创 Canal上手指南:mysql到kafka

1. 準備工作 1.1. MySQL賬號 根據Canal官方說明,需要申請一個MySQL數據庫的賬號,該賬號具有如下權限 CREATE USER canal IDENTIFIED BY 'canal'; -- 至少具有如下權限 G

原创 翻譯: Flink vs. Spark

  在流處理技術框架的技術選型中,Storm/Spark/Flink進入視線。其中簡單分析,就除去了Storm選項。Spark Streaming與Flink在流處理方面相差不大,甚至小規模流處理時可以直接使用Spark Stream

原创 Flink vs. Spark簡單分析

  在技術架構與選型時,首先調研市面上常見的解決方案,然後從各方面進行比較,選擇適合公司應用場景的技術。本文截取了文章Hadoop vs Spark vs Flink – Big Data Frameworks Comparison

原创 《道德經的人生智慧》讀書筆記

  最近有時間讀了一本書:《道德經的智慧》。在幹工作忙碌的閒暇之餘,有空看看“雞湯”書,喝喝雞湯,也是非常不錯的。本文取原文中的文段節選。 1. 道可道非常道,名可名非常名:道法自然的智慧 1.1. 道可道非常道,名可名非常名 “道”

原创 Oracle JDBC爲什麼不能在Maven中直接配置?

  在實際項目中,我們通常使用這樣的方式:首先,下載ODBC的Jar到本地;然後,通過Maven安裝在本地庫中。這樣在項目中就可以使用ODBC的Jar包了,而大部分的jar是可以通過Maven中直接引用的。這是爲什麼呢? 項目報錯