https://xtech.nikkei.com/atcl/nxt/column/18/01157/101900072/?n_cid=nbpnxt_mled_itmh

保守網の収容数が推奨値を超過

 通信障害は8月25日午前8時57分、光伝送装置を遠隔監視・制御するための保守ネットワークで起きた。NTT西日本は主信号(顧客の通信)をやり取りするNGN(次世代ネットワーク)とは別に、保守用のIPネットワークを構成している。

 異変のきっかけは、保守ネットワークにおける光伝送装置の収容数が推奨値を超過したことだった。NTT西日本の釡江卓也設備本部サービスエンジニアリング部ネットワーク設備部門長は「推奨値に対して10%程度上回っていた」と打ち明ける。これに伴い、ルーティング(プロトコルはOSPF=Open Shortest Path First)の再計算時にCPUの負荷が上昇。1台の光伝送装置において、監視制御を担うCPU同士の通信が不安定になり、内部データベースの同期が取れなくなった。

 同装置内で監視制御をつかさどるCPUは二重化しており、設定情報などをやり取りしている。この同期失敗が思わぬ事態を引き起こす。CPUはデータベースが空だと誤認識したうえで、データベースを勝手に初期化し、工場出荷状態に戻してしまったのだ。しかも、保守ネットワークにとどまらず、主信号に関わる設定まで初期化してしまった。「全体が初期化された状態になり、伝送路自体がダウンしてしまった」(釡江氏)。この結果、12府県の一部顧客のネット接続が途絶えた。

 ここまでが障害発生のメカニズムだが、3つの疑問がわく。1つ目は保守ネットワークにおける装置収容数の超過がなぜ見過ごされたのかという点だ。NTT西日本によると、推奨値の超過は後から判明したという。釡江氏は「メーカー側ときちんと連携できていなかったという反省がある」と語る。同社は機密情報に当たるとして、装置のメーカーを明らかにしていない。