原创 spark job 使用定製python環境 + 上傳額外環境的方法

spark 上傳額外的文件的方法 當pyspark 運行在cluster mode下的時候 driver不能直接獲取到client上的文件 所以要把一些文件上傳上去 pyspark_submmit 在提交的時候有三個參數和上傳文件

原创 hdfs 權限設置問題

HDFS 權限設置 hdfs 系統的權限和 linux 相似 分爲三個部分 所有者 第一列 對應權限位2,3.4位 用戶組 第二列 對應權限位5,6,7位 其他人 對應權限位8,9,10位 hdfs的用戶 是和本地

原创 pytorch小問題

pytorch張量的保存和恢復 tensor本身就是對象 如果想要保存和恢復對應的對象 使用 torch.save 和 torch.load即可 就像picke的load 和dump一樣 t2 = torch.randn([102

原创 pyspark RDD 的介紹和基本操作

pyspark RDD 的介紹和基本操作 RDD介紹 雖然現在pyspark已經支持了DataFrame 但是有的時候不得不用一下RDD 但是 官方文檔很多地方說的不明不白 所以自己做了實驗在這裏總結一下。 RDD是用位置來做映射

原创 hdfs yarn kill 任務

hdfs kill 任務 先說結論 hdfs 上的hadoop 任務 直接在終端ctrl+C是不行的 任務一旦提交到集羣上 就會繼續 運行 所以應該使用 yarn application -kill application_157

原创 crontab 踩坑記錄

crontab是linux 下的定時工具 但是有很多坑 1. 第一個坑 crontab 命令中 % 如果原始命令中帶有 % 那麼很可能會執行失敗 因爲crontab中的%號有特殊含義 需要使用 轉義字符去轉義 例如 下面這個命令

原创 go 中的array和slice

go 中的array和slice array 和slice 類似但是也有區別 array array是定長的, 類似於c語言裏面的數組 可能修改內容 但是不能夠擴容 array 的類型本身包含了長度信息 比如定義時 array1