原创 Java正則表達式之網頁爬蟲

這是一個爬蟲簡單示例:到網絡中獲取指定規則的數據  像貼吧、天涯裏面的留郵箱發資料的帖子裏面有很多號碼、郵箱。就可以通過這個程序獲取顯示到控制檯 通過傳一個url地址,程序將獲取網頁裏面的所有郵箱。 如果要獲取電話號碼,將正則表達式改動一

原创 Storm 多語言支持

Storm作爲真正的實時流處理系統比spark的僞實時流更好。Storm用java開發很方便,但是除了支持java語言,還支持其他多種語言。1.對於JVM語言比較簡單, 直接提高DSL封裝Java即可。2.對於非JVM語言就稍微複雜一些,

原创 Spark sql 數據遷移

數據遷移當然可以使用sqoop,但是我使用的時候發現配置不當有很多錯誤,使用起來很麻煩,於是自己就用了最原始的方法來遷移數據,熟練步驟了其實也很快,給大家一個參考一、遷移一張表查看錶結構:desc table tb1;查看建表sql語句:

原创 Java反射的簡單例子

 反射技術: 通過配置文件動態獲取類,僅在配置文件中添加類名,而不用修改源碼當程序寫好後直接在配置文件裏添加新增類名就可以了public class ReflectTest { public static void main(Stri

原创 CCProxy是個好東西

我在之前的博客裏提到了用Teamviewer + CCProxy做內網穿透,當時只是簡單提了一下,因爲發現這種方式網速比較慢。今天又用到了它,雖然慢點,但是總比沒的用好,哈哈哈。不得不感嘆CCProxy是個好東西,小巧靈活,好多次用學校的

原创 java GC垃圾回收機制

垃圾收集器(collector)主要關注兩個方面:1. 找到所有存活的對象2. 清除掉不可用對象在所有收集器中,都是通過標記(Marking)的方法找到存活對象的。 一、標記可訪問對象現在JVM中所有的GC算法都是從找出存活對象開始的。下

原创 Spark SQL的ThriftServer服務和圖形化客戶端

通常我們是在控制檯輸入命令:spark-sql進入命令行界面:這是大多數人最喜歡用的,也最熟悉的界面。除了這種方式,還可以藉助第三方的客戶端來接入Spark SQL,常用的windows下圖形客戶端有:SQuirreL SQL Clien