原创 windows10 tensorflow 安裝報錯 ImportError: No module named '_pywrap_tensorflow_internal'

widows10上安裝tensorflow版本1.1.0,先安裝python3.5.X,然後安裝命令pip install tensorflow==1.1.0即可。 安裝完成,import tensorflow的時候報錯如下: 查找的很多

原创 pyspark 任務提交 依賴打包

如果是一個簡單的應用,沒用多餘的依賴,則可以直接提交就行了: spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.executor.memoryOv

原创 pyspark 讀寫 hbase (指定列)

spark使用newAPIHadoopRDD和saveAsNewAPIHadoopDataset來存取hbase的數據,直接上代碼: 1. spark讀取hbase: readkeyConv = "org.apache.spark.ex

原创 git You are not allowed to push code to protected branches on this project

向master上push代碼的時候報錯  查其原因是因爲master是受保護分支  權限不夠的人是無法push代碼到該分支的。 解決方法有兩個: 1.對於很小的一兩個人的項目,則開放master分支的權限(把所有人的權限都改爲主程序員

原创 org.apache.spark.SparkException: Could not find CoarseGrainedScheduler pyspark

     前幾天跑pyspark時遇到的錯誤,搜索org.apache.spark.SparkException: Could not find CoarseGrainedScheduler這個錯誤的時候發現問題描述五花八門,解決方案也是

原创 flume+kafka配置問題

kafka版本0.9以後採用了新的consumer,改變了很多特性: 新的Comsumer API不再有high-level、low-level之分了,而是自己維護offset。這樣做的好處是避免應用出現異常時,數據未消費成功,但Posi

原创 kafka消費者offset相關設置

1.自動提交offset&手動提交offset自動提交,只需設置"enable.auto.commit",爲"true"即可,"auto.commit.interval.ms",爲默認自動提交的時間,一般設爲"1000",單位ms;手動提

原创 linux awk命令詳解【轉】

linux awk命令詳解原文鏈接 : http://blog.chinaunix.net/uid-23302288-id-3785105.html awk是行處理器: 相比較屏幕處理的優點,在處理龐大文件時不會出現內存溢出或是處理緩慢的

原创 linux sed 命令簡介

sed功能非常強大,用兩行命令可以實現java幾十行程序都搞不定的文本處理功能。選項與參數:-n :使用安靜(silent)模式。在一般 sed 的用法中,所有來自 STDIN 的數據一般都會被列出到終端上。但如果加上 -n 參數後,則只

原创 spark ml VectorIndexer 報錯 java.util.NoSuchElementException: key not found: 0.0

採用用spark的DecisionTree來訓練樣本,在使用pipeline中使用了VectorIndexer 轉換特徵向量。生成模型後,用模型來訓練大規模樣本(上千萬樣本,生成模型的訓練集只有幾千個)的時候報如下錯誤。查閱資料,也沒有得

原创 sparkstreaming kafka Failed to get records for after polling for 512

這個錯誤上次說的解決方案是設置heartbeat.interval.ms 和 session.timeout.ms這兩個參數,但發下效果不理想,錯誤還是會出現。從錯誤日誌裏翻閱源碼,發現了問題所在,報錯的代碼是: at org.apach

原创 Linux系統中的Swap分區詳解【轉】

  Linux系統的Swap分區,即交換區,Swap空間的作用可簡單描述爲:當系統的物理內存不夠用的時候,就需要將物理內存中的一部分空間釋放出來,以供當前運行的程序使用。那些被釋放的空間可能來自一些很長時間沒有什麼操作的程序,這些被釋放的

原创 updateStateByKey函數詳解及worldcount例子

updateStateByKey操作允許您在使用新的信息持續更新時保持任意狀態。1、定義狀態 - 狀態可以是任意數據類型。 2、定義狀態更新功能 - 使用函數指定如何使用上一個狀態更新狀態,並從輸入流中指定新值。 如何使用該函數,spar

原创 sparkstreaming中kafka的offset提交

就kafka而言,offset提交方式有兩種,自動和手動。將enable.auto.commit設置爲true,即可自動提交props.put("enable.auto.commit", "true");props.put("auto.c