スーパーコンピュータ「京」の安定稼働を目指し、富士通ができること

近年、情報システムは、日常の生活に直結する社会インフラとして、ますます重要な役割を担っています。私たちが、安心・安全な生活を送るためには、社会インフラのひとつである情報システムが安定して稼働することが必要不可欠です。富士通は、このような情報システムを「社会システム」と位置づけ、安定稼働のために様々な活動に取り組んでいます。
情報システムを安定して稼働させ続けるためには、お客様と富士通がお互いに力を合わせることが重要です。お客様がご自身の情報システム運営に精力的に取り組まれることで、情報システムが継続して安定稼働している事例をご紹介します。情報システムの安定稼働について、皆様と改めて考えるきっかけになれば幸いです。

スーパーコンピュータ「京」にとっての安定稼働とは

理化学研究所計算科学研究機構(AICS)様(=写真)と富士通で共同開発したスーパーコンピュータ「京」は、約8万の計算ノード、約1.3ペタバイトのメモリを搭載する超大規模システムです。「京」は地球科学や防災、医療、ものづくりなど幅広い分野で、通常のスーパーコンピュータでは実現できない高度なシミュレーションに利用されており、様々な研究機関や企業などで共同利用されています。

AICS様は、共用施設である「京」を止めることなく動かし続けることに加え、より多くの人に利用していただくことが、「京」にとっての安定稼働であると考えています。富士通は、AICS様と力を合わせて「京」の安定稼働に向けた様々な取り組みに挑戦しています。

スーパーコンピュータ「京」

「京」を止めず、稼働率を維持する取り組み

ディスクやCPUなど、コンピュータを構成する部品はある一定の割合で壊れるものであり、特に使用頻度や負荷が高いものほど故障します。「京」は大規模システムであり膨大な数の部品から構成されているため、毎月、大量のディスクやCPUなどの部品を交換しています。

AICS様では、頻繁に発生する部品交換に備え、部品庫を設けて必要な交換部品を迅速に用意できるようにしています。さらに、部品故障の予兆を検知し、予防交換をすることで部品故障によるシステムダウンを未然に防止しています。

また、空調など「京」を取り巻く環境についても工夫を惜しみません。空調の設定温度と部品の故障頻度の関係を調査したところ、冷気の吹き出し温度を数度下げると、故障頻度が下がることがわかりました。このように、AICS様と富士通は、様々な工夫により「京」の安定稼働を実現し、高い稼働率を維持しています。

より多くの人に使ってもらうために

共用の研究施設である「京」をより多くの人に活用していただくことも、AICS様と富士通の使命です。現在、「京」の利用申請は非常に多く、より多くの企業や研究機関に利用していただくために、計算ノードに空きを作らないように運用する必要があります。利用者から投入される大小さまざまな計算処理を、うまくスケジューリングして、計算ノードを無駄なく使えるように工夫しています。スケジューリングの改善やツールの活用などにより、高い充填率(稼働している時間のうち、実際に計算処理をした時間)を目指しています。また、運用状況を公開し、混んでいる時期と比較的余裕のある時期を利用者に周知することで、利用者の待ち時間が減るような工夫もしています。

「京」プロジェクトでは、AICS様もスーパーコンピュータの専門家であるため、AICS様のノウハウと富士通の技術を合わせて安定稼働の実現をしています。お客様の業務を継続させるためには、「情報システムを止めないこと」に加え、「万が一何か起きても、迅速に対応できるように備えておくこと」が重要です。富士通は、情報システムの安定稼働を通してお客様のビジネスに貢献し、より安全で、より豊かな社会をお客様と共創することに取り組んでいきます。