OpenPBSの導入

目次

Einglish page is here.

環境

管理サーバ
reki(CentOS 7.5)
計算サーバ
shiki(CentOS 8.2), ruli(CentOS 8.2)
これらのhost名はhostsなりで名前解決できるよう設定をしておく.

インストール

基本的にすべてOpenPBSのGitHubリポジトリのINSTALLに書かれたとおりに進めればインストール完了.
インストール先ディレクトリは/usr/lcoal/openpbsとした.

設定ファイル

管理サーバ

/etc/pbs.conf
PBS_SERVER=reki
PBS_START_SERVER=1
PBS_START_SCHED=1
PBS_START_COMM=1
PBS_START_MOM=0
PBS_EXEC=/usr/local/openpbs
PBS_HOME=/var/spool/pbs
PBS_CORE_LIMIT=unlimited
PBS_SCP=/bin/scp

計算サーバ

/etc/pbs.conf
PBS_SERVER=reki
PBS_START_SERVER=0
PBS_START_SCHED=0
PBS_START_COMM=0
PBS_START_MOM=1
PBS_EXEC=/usr/local/openpbs
PBS_HOME=/var/spool/pbs
PBS_CORE_LIMIT=unlimited
PBS_SCP=/bin/scp
/var/spool/pbs/mom_priv/config
$clienthost reki
$restrict_user_maxsysid 999

ファイアウォール

管理サーバ

15001-15004と17001を開ける.
sudo firewall-cmd --zone=public --add-port=17001/tcp --permanent
sudo firewall-cmd --zone=public --add-port=15001-15004/tcp --permanent
sudo firewall-cmd --reload

計算サーバ

15001-15004を開ける.
sudo firewall-cmd --zone=public --add-port=15001-15004/tcp --permanent
sudo firewall-cmd --reload

pbsの起動

INSTALLに従ってインストールが終わったら

sudo systemctl enable --now pbs.service
でpbsのサービスの起動と自動起動設定を行います.

計算サーバの登録

管理サーバで以下のコマンドを実行.

sudo qmgr -c 'create node shiki'
sudo qmgr -c 'create node ruli'
うまくいくと勝手に各計算ノードの状態を取得してくれ,
pbsnodes -a
でいろいろな情報が見られるようになる.

計算ノード→管理ノードへのssh設定

NFS等でディスク共有をしていない場合などはscp等で標準出力ファイル等が管理ノードに転送されるため,その設定が必要となる.
計算ノードの.ssh/configで管理ノードへのssh設定を行う.

うまく行かないときは

ログを見る.
ログ置き場はデフォルトでは/var/spool/pbs下のXXX_logs内.
例えば管理ノードのポート17001番を開けていなかったりすると,pbsnodes -aの結果がstate = state-unknown,downとなったりし,管理ノードのserver_logs内のログを見ると

TPP;Server@momo86(Thread 0);sd 3, Received noroute to dest yyy.yyy.yyy.yyy:15003, msg="pbs_comm:xxx.xxx.xxx.xxx:17001: Dest not found at pbs_comm"
と出ていたりする.

カテゴリー:サーバ
記事作成日:2020-10-14