3連休のド真ん中、9/14に発生したANAのシステム障害の概要が明らかになってきた。
原因は、端末がサーバーに接続する際の暗号化認証の有効期限が 9/14 AM1:44で切れていて、この処理でエラーとなっていたとのこと。
Webで例えるとSSL認証の有効期限切れ、、といったところか。
プログラムのバグなどではなく、極めて初歩的なミスであった。
逆にこれを防止する方法というと、、、、、ともて難しい。。
今回のANAの件も2005年に認証管理サーバーを導入したときは暗号化認証機能を使用するシステムが存在せず初期設定(有効期限3年)のままにしていた。その後2007年9月に認証機能を利用する端末を導入したが、本来この有効期限も適正な期間に延長すべきところを何もしないままの状態となっていた。
前職でNTTの電話交換機システムのSEをしていた経験から、こういった公共的なシステムがダウンしたときの現場での状況が手に取るように推測できる。。
そしてまず、「どこのメーカーか?」ということがアタマをよぎる。
インターネットは便利なもので、調べると出てくる。。w
今回システム障害を起こした端末は沖電気工業製で、不具合を復旧するまで沖電気の社員が現場に出向いて対応し、事態が収拾して撤収したのが9/17だと。。
9/14~9/17まで4日間、カンヅメ状態で対応にあたっていたことになる。。
ワタシの前職のときも、一旦不具合が起きると問題を解析し完全に対処するまで拉致状態。
ワタシも2泊3日、、現場のマシンルームに監禁(!?)された経験がある。。orz (もちろん、、ずっと徹夜。。)
この間、30分おきくらいに上司や、顧客(ワタシの場合NTTサン)から状況報告を求められ、針のむしろ状態。。。
前職の電話交換機システム開発では、日立、NEC、富士通、沖電気の4社で協同開発していたが、自社で開発した部分には不具合がないことが明らかになっても、具体的にどの社のどの機能でどんな不具合があるか、まで追求しないと解放されない、、というツライ立場でもあった。。
現場の担当者のご苦労を思うと、、懐かしさ!? いや、過去の恐怖(笑)が甦ってくるようだ。。orz
朝礼スピーチ 9/19(金):ANAのシステム障害
投稿日:2008年9月19日 更新日: