原创 win10安裝Anaconda、Cuda、Cudnn和Pytorch(gpu版)

win10安裝Anaconda、Cuda、Cudnn和Pytorch(gpu版) 安裝Anaconda 在https://www.anaconda.com/products/individual上下載對應的Anaconda,這裏我

原创 HiveQL(一):數據庫及創建、刪除表(管理表、外部表)

HiveQL是Hive查詢語言。和普遍使用的所有SQL方言一樣,它不完全遵守任一種ANSISQL標準的修訂版。HiveQL可能和MySQL的方言最接近,但是兩者還是存在顯著性差異的。Hive不支持行級插入操作、更新操作和刪除操作。

原创 Centos7安裝Kafka2.11-0.10.2.1

集羣環境 Master:192.168.230.10 Slave1:192.168.230.11 Slave2:192.168.230.12 軟件環境 kafka_2.11-0.10.2.1.tgz 解壓安裝包 在Master上安

原创 HiveQL(二):分區表

1 分區表(管理表) 1.1 創建分區表(定義分區字段) 我們重新來看之前的employees表,其address字段包含了city(市)、state(州)等信息,查詢人員經常會執行一些帶WHERE語句的查詢,這樣可以將結果限制在

原创 使用GRANT ALL PRIVILEGES賦予遠程登錄mysql的權限

1、 改表法。可能是你的帳號不允許從遠程登陸,只能在localhost。這個時候只要在localhost的那臺電腦,登入mysql後,更改 “mysql” 數據庫裏的 “user” 表裏的 “host” 項,從"localhost

原创 Spark部署模式詳解(Local,Standlone,Yarn)

1 爲什麼需要Yarn Yarn 的全稱是 Yet Anther Resource Negotiator(另一種資源協商者)。它作爲Hadoop 的一個組件,官方對它的定義是一個工作調度和集羣資源管理的框架。 Yarn 最早出現於

原创 Spark Streaming:reduceByKeyAndWindow、foreachRDD算子

基於Window窗口的轉化操作 基於窗口的操作會在一個比StreamingContext 的批次間隔更長的時間範圍內,通過整合多個批次的結果,計算出整個窗口的結果。 滑動窗口轉換操作的計算過程如下圖所示,我們可以事先設定一個滑動窗

原创 HiveQL(三):修改表ALTER TABLE

1 修改表 大多數的表屬性可以通過ALTER TABLE語句來進行修改。這種操作會修改元數據,但不會修改數據本身,比如修改表模式中出現的錯誤、改變分區路徑等。 1.1 表重命名 使用以下語句可將表log_messages重命名爲l

原创 Spark應用依賴jar包的添加解決方案

在Spark應用中,我們發現,在${SPARK_HOME}\lib文件夾中添加jar包時並不起作用。那麼,要如何使得我們編寫的Sparky應用依賴的jar有效呢?有如下四種方案: 1.使用參數–jars 添加本地的第三方jar文件

原创 Anaconda安裝jieba

先說一下環境,我是window裏用PyCharm,PyCharm裏導入的Anaconda3,想用jieba庫,目的就是想把jieba安裝在Anaconda裏,這樣Pycharm裏直接就能imort jieba了。 首先去官網下載

原创 Python讀取中文出現UnicodeDecodeError: 'gbk' codec can't decode byte 0xae解決方案

用python3讀取一箇中文文本,讀取文件語句如下: def read_file_handler(f, 'r'): fd = open(f) return fd 但運行時出現以下錯誤: UnicodeDecode

原创 樸素貝葉斯筆記

貝葉斯公式 貝葉斯公式就是採用貝葉斯準則來計算條件概率,它告訴我們計算時交換條件概率中的條件與結果: P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}P(Y∣X)=P(X)P(

原创 解決Error:scalac:error while loading ,Error accessing

今天運行flink程序,編譯時報如下錯誤; 意思是訪問maven下載的jar包出錯,但是這個jar包已經下載好了,於是我進入jar包所在的路徑,發現該包的大小隻有1KB,感覺是下載有問題,於是刪除該jar包,然後在pom中rei

原创 邏輯迴歸實戰(Python批量梯度下降,隨機梯度下降,從疝氣病症預測病馬的死亡率)

一、邏輯迴歸代碼 邏輯迴歸其實是求一個分類器,是二分類問題,其利用一個sigmoid函數去定義樣本屬於正類的概率,sigmoid函數的輸入值z利用了線性迴歸的wx,所得出的數值是在[0,1]內的概率,即樣本屬於正類的概率值。在實踐