ぶっちゃけJGで昇格していくのに必要なこと 56

■ このスレッドは過去ログ倉庫に格納されています

635名無しさん

2022/10/21(金) 09:05:57.13ID:5hUjDv6X

https://xtech.nikkei.com/atcl/nxt/column/18/01157/101900072/?n_cid=nbpnxt_mled_itmh

保守網の収容数が推奨値を超過

　通信障害は8月25日午前8時57分、光伝送装置を遠隔監視・制御するための保守ネットワークで起きた。NTT西日本は主信号（顧客の通信）をやり取りするNGN（次世代ネットワーク）とは別に、保守用のIPネットワークを構成している。

　異変のきっかけは、保守ネットワークにおける光伝送装置の収容数が推奨値を超過したことだった。NTT西日本の釡江卓也設備本部サービスエンジニアリング部ネットワーク設備部門長は「推奨値に対して10％程度上回っていた」と打ち明ける。これに伴い、ルーティング（プロトコルはOSPF＝Open Shortest Path First）の再計算時にCPUの負荷が上昇。1台の光伝送装置において、監視制御を担うCPU同士の通信が不安定になり、内部データベースの同期が取れなくなった。

　同装置内で監視制御をつかさどるCPUは二重化しており、設定情報などをやり取りしている。この同期失敗が思わぬ事態を引き起こす。CPUはデータベースが空だと誤認識したうえで、データベースを勝手に初期化し、工場出荷状態に戻してしまったのだ。しかも、保守ネットワークにとどまらず、主信号に関わる設定まで初期化してしまった。「全体が初期化された状態になり、伝送路自体がダウンしてしまった」（釡江氏）。この結果、12府県の一部顧客のネット接続が途絶えた。

　ここまでが障害発生のメカニズムだが、3つの疑問がわく。1つ目は保守ネットワークにおける装置収容数の超過がなぜ見過ごされたのかという点だ。NTT西日本によると、推奨値の超過は後から判明したという。釡江氏は「メーカー側ときちんと連携できていなかったという反省がある」と語る。同社は機密情報に当たるとして、装置のメーカーを明らかにしていない。

■ このスレッドは過去ログ倉庫に格納されています