Multi-node High Performance ATSUKAN Computing

概要

ごみ焼却場における火力発電や液化ガスの再ガス化に伴う冷熱発電など,副次的に発生する熱の再利用は至るところで行われている.
私達が普段用いている計算機も動作に伴い熱を排出しており,いかにこの熱を取り除き捨てるかの研究開発が行われている.
でもその捨てる熱,もったいなくないですか?
よろしければ「熱燗」作りませんか?

昨年はHigh Performance ATSUKAN Computing第一弾として1枚のグラフィックボードからファンを取り除き徳利を乗せて熱燗を作りました.

今年は株式会社八光電機様が開催しています「HAKKO熱の実験コンテスト」に参加し,研究資金を頂いた上で熱燗を作る計算クラスタ「ATSUKAN Cluster」の開発を行いました.

ATSUKAN Cluster

ひとまず現物を見てみましょう.

構成としてはNVIDIA Tesla K20が2枚刺さったノードが4ノードの計8GPUで構成されます.
それぞれのグラフィックボードには水冷用の枕が取り付けられており,冷却液が循環します.
温められた冷却液は写真中央の冷却液タンクに集められ,ここで日本酒と冷却液での熱交換が行われます.
(日本酒を冷却液として使うのは別の実験
冷却液タンクは100円ショップのペン立てを土台に自作です.
このクラスタを模式的に描いたものやノードの各箇所の写真が以下です.

世の中にはプロセッサでパンケーキ[1]や焼き肉[2]などを作る人たちがいるのですが,私が見た限り彼らはプロセッサから冷却装置を取り外しているようです.
しかし多くのプロセッサはその温度がしきい値を超えると保護モードに入り自殺したり黙って壊れたりするので,これは計算機の計算機能を殺していることになります.
やっぱり計算機には計算してもらいたいのでこのプロジェクトでは適切にプロセッサの冷却を行いつつ燗酒をつけるのが目標です.

いろいろな実験

コンテストに提出した最終レポートには5つほど実験を載せたのですが,ここでは3つほど紹介します.

GPU温度と冷却液温度の関係の調査

2 GPUごとに1つのラジエータを持つのですが,それぞれのラジエータにつけるファンの個数を1個とした場合と2個とした場合のGPU温度と冷却液温度の変化の調査を行いました.
冷却液の温度は冷却液タンクに温度計を刺して10秒おきに写真を撮って手動でデータに起こしました.
実験は冷却液温度が十分に安定した状態からはじめ,8GPU全てでGEMMを回します. その結果,ファンの個数によらず加熱中はおおよそ4~5℃程度の差ができ,3600秒目でGEMM計算を停止するとGPUと冷却液温度は一緒になって落ちていきました.
また,ファンが1つのとき冷却液温度は58℃程度となり,日本酒を湯煎するにはいい感じなことがわかりました.

スケールするかの調査

簡単に言えば2倍のノード数なら2倍速く冷却液の加熱が行えるのかってことです.
稼働させるノード数を1台,2台,4台とした場合の冷却液温度が50度に達すにまでに要した時間を調査しました.
開始温度はその実験でも27℃程度です.
赤破線が理想的にスケールした場合の値です.
正直なんとも言えない結果だと思います.
もっとノードがほしいです.

熱燗を作るぞ!

手順
  1. お寿司とお酒を買いに行きます.
  2. GEMMを回して58℃程度の冷却液を作ります.
  3. 冷却液の中に丸底フラスコに入れた日本酒を入れます.
  4. 10分程で55℃程度の熱燗の完成です.
  5. 何も食べずにアルコールだけ摂取すると吸収が速く酔いが回りやすいため,お寿司を食べながら熱燗を楽しみます.

終わりに

初めての本格水冷楽しかったです.
次は低温調理でローストビーフかなーと思っていたりします.
今回はちょっぴり熱燗を飲みましたが,依然お酒を大して飲めないままなのが残念です.
私の最終レポートも含め,コンテスト参加者のレポートはこちらからご覧いただけます.

謝辞

研究資金を提供してくださった株式会社八光電機様に心から感謝申し上げます.
ブログでは名前をふせさせていただきますが,この実験のために私の研究室に部品の提供をしてくださった先生と水冷周りに関して助言をしてくださった先生に感謝申し上げます.
また熱燗を飲んで感想を言って下さいました研究室の後輩方に感謝いたします.

参考

カテゴリー:その他
記事作成日:2020-01-22