台部落lmb633

widows10上安裝tensorflow版本1.1.0，先安裝python3.5.X，然後安裝命令pip install tensorflow==1.1.0即可。安裝完成，import tensorflow的時候報錯如下：查找的很多

2018-12-07 13:29:23

如果是一個簡單的應用，沒用多餘的依賴，則可以直接提交就行了： spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.executor.memoryOv

2018-11-30 16:03:50

spark使用newAPIHadoopRDD和saveAsNewAPIHadoopDataset來存取hbase的數據，直接上代碼： 1. spark讀取hbase: readkeyConv = "org.apache.spark.ex

2018-11-28 13:03:22

向master上push代碼的時候報錯查其原因是因爲master是受保護分支權限不夠的人是無法push代碼到該分支的。解決方法有兩個： 1.對於很小的一兩個人的項目，則開放master分支的權限（把所有人的權限都改爲主程序員

2018-11-28 13:03:22

前幾天跑pyspark時遇到的錯誤，搜索org.apache.spark.SparkException: Could not find CoarseGrainedScheduler這個錯誤的時候發現問題描述五花八門，解決方案也是

2018-11-21 01:13:05

kafka版本0.9以後採用了新的consumer，改變了很多特性：新的Comsumer API不再有high-level、low-level之分了，而是自己維護offset。這樣做的好處是避免應用出現異常時，數據未消費成功，但Posi

2018-11-13 23:34:23

2018-08-26 15:20:43

1.自動提交offset&手動提交offset自動提交，只需設置"enable.auto.commit"，爲"true"即可，"auto.commit.interval.ms",爲默認自動提交的時間，一般設爲"1000"，單位ms;手動提

2018-08-26 15:20:43

linux awk命令詳解原文鏈接 : http://blog.chinaunix.net/uid-23302288-id-3785105.html awk是行處理器: 相比較屏幕處理的優點，在處理龐大文件時不會出現內存溢出或是處理緩慢的

2018-08-26 15:20:38

sed功能非常強大，用兩行命令可以實現java幾十行程序都搞不定的文本處理功能。選項與參數：-n ：使用安靜(silent)模式。在一般 sed 的用法中，所有來自 STDIN 的數據一般都會被列出到終端上。但如果加上 -n 參數後，則只

2018-08-26 15:20:36

採用用spark的DecisionTree來訓練樣本，在使用pipeline中使用了VectorIndexer 轉換特徵向量。生成模型後，用模型來訓練大規模樣本（上千萬樣本，生成模型的訓練集只有幾千個）的時候報如下錯誤。查閱資料，也沒有得

2018-08-26 15:20:34

這個錯誤上次說的解決方案是設置heartbeat.interval.ms 和 session.timeout.ms這兩個參數，但發下效果不理想，錯誤還是會出現。從錯誤日誌裏翻閱源碼，發現了問題所在，報錯的代碼是： at org.apach

2018-08-26 15:20:34

Linux系統的Swap分區，即交換區，Swap空間的作用可簡單描述爲：當系統的物理內存不夠用的時候，就需要將物理內存中的一部分空間釋放出來，以供當前運行的程序使用。那些被釋放的空間可能來自一些很長時間沒有什麼操作的程序，這些被釋放的

2018-08-26 15:20:34

updateStateByKey操作允許您在使用新的信息持續更新時保持任意狀態。1、定義狀態 - 狀態可以是任意數據類型。 2、定義狀態更新功能 - 使用函數指定如何使用上一個狀態更新狀態，並從輸入流中指定新值。如何使用該函數，spar

2018-08-26 15:20:34

就kafka而言，offset提交方式有兩種，自動和手動。將enable.auto.commit設置爲true，即可自動提交props.put("enable.auto.commit", "true");props.put("auto.c

2018-08-26 15:20:29