NIES GOSAT-2 Project Logo

 

GOSAT-2 研究用計算設備について

 

RCF-2導入経緯背景

 

   2009年1月に温室効果ガスを観測する世界初の専用の衛星としてGOSAT (いぶき) が打ち上げられました。GOSATにより観測された大量のデータは、GOSATデータ処理運用設備(GOSAT DHF)において処理・配信されていますが、解析アルゴリズムの研究・開発を確実に実施するため、国立環境研究所 (以下、NIES という。) は、「GOSAT 研究用計算設備」(以下、RCF という。) を 2010年 3 月に導入しました 

 

 RCF は短波長赤外データの研究処理を、 6 年間の運用期間中に延べ約 58 年分実施する等の実績を挙げました。この研究処理結果に基づき短波長赤外データ解析アルゴリズムの改訂が行われ、二酸化炭素・メタンのカラム平均濃度の精度が大幅に向上しました。 

 

   この成果によりアルゴリズムの研究・開発を目的とした計算設備の必要性が認められ、「GOSAT-2 研究用計算設備」(以下、RCF2 という。) の導入が実現しました。RCF2 導入の主たる目的は、”GOSAT データ等を元に GOSAT-2 データ解析アルゴリズムの研究・開発をGOSAT-2プロジェクト全体として着実に実施すること”です。


 RCF の主たるユーザはNIES の研究者でしたが、RCF2では,「GOSAT-2プロジェクト全体としての着実な実施」を目指すため、GOSAT-2 プロジェクトに関わる所外の研究者にも利用範囲を拡げました。

 

 

Calculating Lamps

 

 

運営組織図RCF2の運用について

   

   NIES衛星観測センター GOSAT-2プロジェクトによりRCF2が運用されています。RCF2の運用状況は下記のとおりです。

 

  2016 年 3 月   機材設置
  2016 年 9 月   NIES内ユーザ向けサービス開始
  2016 年12 月   NIES外ユーザ向けサービス開始

 

nav2RCF2の仕様

 

RFC2

  RCF2 の仕様は、下記の通りです。

 

  RCF2 仕様 (カッコ内は、RCF の仕様)

  • 演算ノード数 120台 (160台)
  • 総コア数 2880コア (1280コア)

 

  主要部品名

  • CPU E5-2650 v4 (Xeon E5530)
  • GPU NVIDIA Pascal (NVIDIA Fermi)
  • DISK DDN SFA 14K (DDN S2A 9900)

 

  理論演算性能

  • CPU 101 TFLOPS (12 TFLOPS)
  • GPU 900 TFLOPS (165 TFLOPS)
  • 合計 1 PFLOPS (177 TFLOPS)

 

  消費電力性能

  • 9796 MFLOPS/W (636 MFLOPS/W)

       *スパコン省エネ性能ランキング Green500 において

        世界第 8 位 (2017 年 6 月時点)
          https://www.top500.org/green500/lists/2017/06/

 

  共有ディスク容量

  • 実効容量 2 PB (0.1 PB)

 

  インターコネクト性能

  • バンド幅 100 Gbps (32 Gbps)
  • 規格 InfiniBand EDR (InfiniBand QDR)

 

RCF-2導入経緯RCF2の特徴

 

   RCF2では、RCF のオリジナル機能である EcoManager を発展させた EcoManager2 を企画・導入しました。EcoManagerの機能は当初、単純なジョブ連動型の節電機能のみでしたが、RCF 運用中に得た経験を適宜取り込み、計算ノード立ち上げタイミング調整機能等を追加してきました。これらの追加機能に加え、EcoManager2には、計算ノード利用率自動平準化機能、計算ノード健全性自動確認機能、計算ノード冗長割り当て機能等を追加しています。

 

  EcoManager2 で追加された新機能の概要は以下のとおりです。

 

  • 計算ノード利用率自動平準化機能

   EcoManager では、計算ノードはジョブキューと静的に紐づけられていたため、頻繁に利用されるジョブキューと紐付いている計算ノードの利用時間、起動・停止回数が平均よりも多くなっていました。

 一般に、利用時間、起動・停止回数が多ければ故障回数も多くなります。そこで EcoManager2 では、ジョブキューと計算ノードの静的な紐づけを止め、過去の利用状況からジョブに対し動的に計算ノードを割り当て、計算ノード利用率を自動的に平準化する機能を実現しました。

 

  • 計算ノード健全性自動確認機能

   EcoManager が計算ノードを起動させる際に、起動失敗・故障等が原因で、ジョブが実行されない・異常停止する等の障害が稀に発生し、その都度、運用者が手動で故障原因の切り分けや再起動を行なっていました。EcoManager2 では、この故障原因の手動切り分けの第一段階である、計算ノードの健全性確認作業を取り込み、計算ノードの起動直後に、健全性を自動的に確認する機能を実現しました。

 

  • 計算ノードの冗長割り当て機能

   RCF では、予備の計算ノードを、静的なコールドスタンバイとして数台用意していましたが、RCF2 では、EcoManager2 が要求数 + 1 台以上の計算ノードを起動させ、その中から正常に利用できるノードを割り当てる、動的なホットスタンバイ機能を実現しました。

 

* トップのバナー写真:RCF2のインターコネクトスイッチ

 

 

 

  

Updated: June 20, 2017