PBS 排隊系統一直不能運行

PBS 排隊系統一直不能運行

tips

看到木蟲社區有人發帖,爲了幫助到更多的人,所以把問題和解決都貼過來。

問題

老闆在集羣上開了一個賬戶給我,但是提交PBS腳本後,qstat狀態一直顯示爲C,cpu運行時間也全部爲0。通過查看郵件報錯信息,顯示爲An error has occurred processing your job, see below.
Post job file processing error; job 1608 on host compute-0-4/2Unknown resource type REJHOST=compute-0-4.local MSG=invalid home directory ‘/export/home/wj’ specified, errno=2 (No such file or directory).
請問有人遇到同樣的問題嗎?求問怎麼解決?謝謝

我的回答

儘管帖子已經過去很多時間了。但是作爲一名以前用過PBS的人員來說,經歷並感受到了很多非IT專業人員使用PBS等隊列系統遇到問題時的無助。下面將分享一下樓主的問題和可能的原因,以及遇到這類問題如何解決。樓主收到的PBS郵件提示在compute-0-4.local這臺機器上面,沒有找到/export/home/wj這個目錄。通過PBS集羣的基本構造,樓主所在的集羣使用了一個NFS系統,然後所有節點都掛載該目錄來共享用戶主目錄、程序文件和數據文件。那麼出現這種錯誤的原因是,在compute-0-4.local這臺機器上面,沒有執行NFS文件目錄的掛載,將/export/home/目錄掛載後,應該可以執行了。或者說不會報這個錯誤了。

PBS提交任務出現問題的解決思路。當我們使用qsub jobfile提交作業之後,會返回一個作業ID。通過這個作業ID,我們可以查詢這個作業的運行情況。
1.執行qstat jobid查看作業基本狀態,如果作業很快從Q->R->C狀態,即作業很快結束。則執行如下命令
2.執行qstat -f jobid查看作業運行的詳細信息,其中包括,輸出文件,錯誤文件,以及提示信息,通過查看這些信息,我們可以找到具體的原因。
3.通過第2步中找到的具體報錯信息,來對症下藥,解決問題。很多時候,PBS作業提交出現問題,都不是PBS本身的問題,可能是軟件環境配置問題、文件系統問題、作業腳本本身問題等。

希望能夠幫助到大家。下次會專門寫一封帖子介紹HPC軟硬件環境,以及PBS作業系統使用時常見的問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章