原创 重裝Deepin 15.11 unstable版本更新到stable版本如何保留home分區數據

又折騰了下deepin 官方deepin unstable版本現已正式停止技術支持,請unstable 用戶儘快前往下載頁面安裝stable版本。之前我也嫌麻煩,覺得重新配置環境啥的好麻煩。在B站上看到了Deepin V20的宣傳

原创 《Spark The Definitive Guide》Chapter 6:處理不同類型的數據

文章目錄Chapter 6:處理不同類型的數據從哪裏找到適合的方法處理布爾類型數據處理數值型數據處理字符串型數據處理日期和時間型數據處理 null 數據處理複雜的數據類型處理 Structs 的方法處理 Arrays 的方法處理

原创 解決github clone大項目速度慢問題

用git內置代理,走1080端口 編輯用戶目錄下的.gitconfig文件 # 添加 [http] proxy = socks5://127.0.0.1:1080 [https] proxy = sock

原创 《Spark The Definitive Guide》Chapter 5:基本結構化API操作

Chapter 5:基本結構化API操作 前言 見《Spark 權威指南》學習計劃 Schemas (模式) 我這裏使用的是書附帶的數據源中的 2015-summary.csv 數據 scala> val df = spark.r

原创 Structured Streaming中如何通過schema_of_json方法動態解析Kafka傳入的JSON數據的Schema

Structured Streaming中如何解析Kafka傳入的JSON數據的Schema 在實際生產中消息中的字段可能會發生變化,比如多加一個字段什麼的,但是Spark程序又不能停下來,所以考慮在程序中不是自定義好Schema

原创 Spark2.4.0和Scala2.11集成Kudu1.8.0遇到的坑

最近做實時數倉用到了spark streaming和kudu兩個組件,因爲資料少得可憐,折騰了一番終於是搞定了,在這裏記錄下期間遇到的坑 先通過Impala建張Kudu表 create table kudu_appbind_tes

原创 Spark中如何向已存在Schema新增StructFields

向已有的Schema新增StructFields 就是StructType的add方法,實際業務中需要動態向DataFrame中新增列時,可以獲取最新的配置然後動態更新Schema /** * Creates a new [[S

原创 Hive 插入動態分區表時遇到的一些坑

Hive 插入動態分區的問題 insert into table xxx partition(xxxx) select ... 使用動態分區時首先不要忘記的一些配置: 是否開啓動態分區 hive.exec.dynamic.pa

原创 Hive中Create table... as 和 Create table ... like 的區別和使用注意

CTAS建表語句(CREATE TABLE AS SELECT) 使用查詢創建並填充表,select中選取的列名會作爲新表的列名(所以通常是要取別名) 會改變表的屬性、結構,比如只能是內部表、分區分桶也沒了 目標表不允許

原创 祭不再維護的deepin 15.11 unstable

如圖,昨天Deepin社區推送了最新版本15.11的更新,並宣佈deepin unstable版本停止維護。而unstable版本過渡到stable版本只有格盤重裝一條路,本想着重裝系統,但無賴環境、配置等等實在是太多了,重裝又

原创 《Spark: The Definitive Guide 》Chapter 7:聚合操作

文章目錄Chapter 7:聚合操作Group分組和聚合函數聚合函數count 和 countDistinctapprox_count_distinctfirst 和 lastmin 和 maxsum 和 sumDistincta

原创 《Spark: The Definitive Guide 》Spark權威指南學習計劃

Spark-The-Definitive-Guide-Learning 《Spark: The Definitive Guide Big Data Processing Made Simple》學習記錄 文章目錄Spark-The

原创 《密碼編碼學與網絡安全》複習總結

軟院田園老師的課,雖然上課沒聽(我覺得他講得不好),自己看書也差不多看懂了七七八八,以下是看書過程中列出的部分重點 數論 歐幾里得算法三形式,思路 歐拉定理、費馬定理證明 中國剩餘定理 計算 可能和低冪次RSA攻擊結合 二次剩餘

原创 Java GC機制和內存泄漏分析

Java 內存泄漏 190523,RSS給我推送了新的內容,掃了幾眼對其中幾篇文章挺感興趣的,其中一篇出自掘金——納尼,Java 存在內存泄泄泄泄泄泄漏嗎? ,至此記錄閱讀心得吧。其次,還涉及以下幾篇文章: IBM-Java的內

原创 finally語句如何執行

finally語句如何執行 一般是在try…catch…finally中配對使用finally,多用來釋放資源。雖然這個點很簡單,但還是有些地方需要注意的。 無論try是否發生異常,finally語句都會執行 如果try/cat