原创 linux 腳本 獲取以某字符結尾的文件名

以系統當前時間爲文件名 獲取當前文件夾下以“csv”結尾的文件名 如果相同,則繼續 如不同,則將文件夾下的文件mv爲系統命名的文件名 #!/bin/bash //獲取系統前一小時的時間 currentime=`date -d -1hou

原创 【scala】獲取當前時間的上一個自然周以及自然周集合;獲取當前時間的上一個自然月以及自然月的第一天與最後一天

 獲取當前時間的上一個自然周的開始時間: import java.text.SimpleDateFormat import java.util.{Calendar, Date} def getLastWeek():String=

原创 java過濾非漢字的utf8的字符

 將hive中的數據保存在mysql數據庫, title爲字符串,保存過程中報錯如下: java.sql.SQLException: Incorrect string value: '\xF4\x80\xB3\x8A \xE6...' f

原创 combineByKey之Spark中一個比較核心高級函數

import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext} /** * Created by Administrator on

原创 SparkSql將數據源Hive中數據導入MySql實例

背景:能看到這篇博客的夥計兒,應該是充分理解了[理想是豐滿的 現實是骨感]  這句名言了吧。 爲啥子這麼說呢,那就是 不就是個SparkSql從hive導入到mysql嗎! 有什麼技術含量,但是呢 不斷地踩坑ing填坑ing。 廢話不多說

原创 java.lang.NoSuchMethodError: org.apache.thrift.protocol.TProtocol.getScheme()Ljava/lang/Class;

背景:   java程序讀取hive數據 異常:   應該是包衝突 Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.protocol.T

原创 IDEA 下載svn倉庫中的項目

上傳了,當然要下載了。 其實很簡單,找到Repository,export就可以了。   看圖

原创 scala 時間戳比較大小

scala,時間戳比較大小,三個參數:currentTime:String,starTime:String,endTime:String def TimeCompare(currentTime:String,starTime:Strin

原创 【spark】idea 手動添加設置參數

當你需要將項目打成jar在服務器上運行時, 當你需要動態的更改輸入url時, 難道你還要每一次都去打包嗎? 不,如今你不需要這樣做了,使用java時,你有Scanner可以控制檯輸入參數, 同樣的在scala中,你也是可以的。

原创 <java代碼> 實現Unix時間戳(Unix timestamp)與普通時間 之間的相互轉換

實現Unix時間戳(Unix timestamp) ---> 普通時間 package text; import java.text.SimpleDateFormat; import java.util.Date; public c

原创 Elasticsearch使用腳本處理Boolean類型字段

Elasticsearch中使用groovy腳本獲取文檔的boolean字段值時,  (2.x版本以上) 得到的值是字符的 1 或者 1 ,而不是bool值 true 和 false 。 比如文檔中有一個字段是 { "acc

原创 elasticsearch創建mappingjavaAPi

用java api調用的代碼如下: 先創建空索引庫 client.admin().indices().prepareCreate("school").execute().actionGet(); put mapping X

原创 es function_score expected field name but got [START_OBJECT]

expected field name but got [START_OBJECT], 這個異常代表的語句邏輯有問題 查詢語句有問題, 你可以就你的部分語句放到一個查詢中,進行檢測

原创 Elasticsearch function_score函數之field_value_factor(字段值影響_score)

使用Elasticsearch的同志來說,簡單的搜索語句,已經達不到我們業務的需求,想要的內容,已經不在限於全部的內容, Elasticsearch是一個實時的分佈式搜索和分析引擎。 它可以幫助我們處理大規模數據, 用於全文搜索,結構化搜

原创 Mongodb Failed: lost connection to server,導入大量數據報錯

Mongodb Failed: lost connection to server。 因爲Mongo對單次處理好像有大小限制(16m)好像是, 所以大文件會出問題,這應該是個Bug mongoimport 默認會10000條 爲一個批量導