にしのクエスト2

情報処理技術者試験と資格学校講師の日常

20240615101703

日々是ネットワーク #3  東証のトラブルは富士通の力を見せつけた

例の東証取引停止のお話をしていきます。

事象についてはあちこちに書かれているのでそれを参考にして欲
しいんですが。ざっくりお話しすると、東証の共有サーバに機械
的なトラブルが発生したが、縮退運転に切り替えることができず
運用ができなくなっちゃった。というお話です。

「それって何?」って直後はめちゃくちゃ質問を受けたのですが
(職場で)フェイルオーバーとかよくわかんないですよね。

トラブルを起こすなんて!ましてや復旧テストくらい・・・

言いたいことはわかります

システムトラブルをそんな大事なところで!っていう気持ちはわ
かります。しかし、トラブルが起こらないシステムはありえない
わけで。そのための縮退運転ですし、監視システムですし、メン
テナンスだったわけで。

え?トラブルを予見できなかったかって?
原因については現在(この記事を書いている時点では)はっきり
とわかりませんが。

予見できないトラブルだったと思います


あくまで個人的な見解ですが。

わかりやすくいえば、様々なトラブルに備えて復旧に向けてのテ
ストや縮退運転の対応テストはやってあります。それが機能しな
かった。

原因がメモリ周りだと言われてますが、メモリ内部に何らかの不
具合を起こしてテストまでは想定しておらず。

つまり「不具合が起こったら、縮退がかかる」
のはできるんだけど。
「メモリ周りのデータ処理が変なのは不具合とは認知しなかった」
のかなあと思います。

簡単にいいますと、メモリを引っこ抜いてまでのテストはしてな
いし、本来はそんなテストは不要です。

機器の故障は予兆があるので、今回はそれをも掻い潜ったとんで
もないエラーだったと思います。

再発防止・・・普通のシステムだったらやらないでしょうね。
(コストがかかりすぎます・・・)
東証ほどのシステムなら、やるかもしれませんが・・・

富士通関係者じゃないですむしろN

このシステムをわずか半日で(縮退運転にすぐ切り替えられたそ
うで、午後からやろうと思えばできたらしいです)

その後の、次の日のテストも含めて富士通の底力。技術力の高さ
に感動すら覚えます。

トラブルはあってはいけないことですが、
それを次の日までに解決してしまう
あれほどの巨大規模システムを・・・
富士通恐るべし・・・

この手のシステム管理を小規模でもやった方なら、感涙モノの復旧。
プロフェッショナルそのものです。普通の企業なら1週間停止でも、
おそらくはあり得る話だったんじゃないかと思います。

f:id:koharuwest:20200724151322p:plain