GOSAT-2 研究用計算設備について
背景
2009年1月に温室効果ガスを観測する世界初の専用の衛星としてGOSAT (いぶき) が打ち上げられました。GOSATにより観測された大量のデータは、GOSATデータ処理運用設備(GOSAT DHF)において処理・配信されていますが、解析アルゴリズムの研究・開発を確実に実施するため、国立環境研究所 (以下、NIES という。) は、「GOSAT 研究用計算設備」(以下、RCF という。) を 2010年 3 月に導入しました。
RCF は短波長赤外データの研究処理を、 6 年間の運用期間中に延べ約 58 年分実施する等の実績を挙げました。この研究処理結果に基づき短波長赤外データ解析アルゴリズムの改訂が行われ、二酸化炭素・メタンのカラム平均濃度の精度が大幅に向上しました。
この成果によりアルゴリズムの研究・開発を目的とした計算設備の必要性が認められ、「GOSAT-2 研究用計算設備」(以下、RCF2 という。) の導入が実現しました。RCF2 導入の主たる目的は、”GOSAT データ等を元に GOSAT-2 データ解析アルゴリズムの研究・開発をGOSAT-2プロジェクト全体として着実に実施すること”です。
RCF の主たるユーザはNIES の研究者でしたが、RCF2では,「GOSAT-2プロジェクト全体としての着実な実施」を目指すため、GOSAT-2 プロジェクトに関わる所外の研究者にも利用範囲を拡げました。
RCF2の運用について
NIES衛星観測センター GOSAT-2プロジェクトによりRCF2が運用されています。RCF2の運用状況は下記のとおりです。
2016 年 3 月 | 機材設置 |
2016 年 9 月 | NIES内ユーザ向けサービス開始 |
2016 年12 月 | NIES外ユーザ向けサービス開始 |
RCF2の仕様
RCF2 仕様 (カッコ内は、RCF の仕様)
主要部品名
理論演算性能
消費電力性能
*スパコン省エネ性能ランキング Green500 において
世界第 8 位 (2017 年 6 月時点)
https://www.top500.org/green500/lists/2017/06/
共有ディスク容量
インターコネクト性能
RCF2の特徴
RCF2では、RCF のオリジナル機能である EcoManager を発展させた EcoManager2 を企画・導入しました。EcoManagerの機能は当初、単純なジョブ連動型の節電機能のみでしたが、RCF 運用中に得た経験を適宜取り込み、計算ノード立ち上げタイミング調整機能等を追加してきました。これらの追加機能に加え、EcoManager2には、計算ノード利用率自動平準化機能、計算ノード健全性自動確認機能、計算ノード冗長割り当て機能等を追加しています。
EcoManager2 で追加された新機能の概要は以下のとおりです。
EcoManager では、計算ノードはジョブキューと静的に紐づけられていたため、頻繁に利用されるジョブキューと紐付いている計算ノードの利用時間、起動・停止回数が平均よりも多くなっていました。
一般に、利用時間、起動・停止回数が多ければ故障回数も多くなります。そこで EcoManager2 では、ジョブキューと計算ノードの静的な紐づけを止め、過去の利用状況からジョブに対し動的に計算ノードを割り当て、計算ノード利用率を自動的に平準化する機能を実現しました。
EcoManager が計算ノードを起動させる際に、起動失敗・故障等が原因で、ジョブが実行されない・異常停止する等の障害が稀に発生し、その都度、運用者が手動で故障原因の切り分けや再起動を行なっていました。EcoManager2 では、この故障原因の手動切り分けの第一段階である、計算ノードの健全性確認作業を取り込み、計算ノードの起動直後に、健全性を自動的に確認する機能を実現しました。
RCF では、予備の計算ノードを、静的なコールドスタンバイとして数台用意していましたが、RCF2 では、EcoManager2 が要求数 + 1 台以上の計算ノードを起動させ、その中から正常に利用できるノードを割り当てる、動的なホットスタンバイ機能を実現しました。
* トップのバナー写真:RCF2のインターコネクトスイッチ
Updated: June 20, 2017