akadama

そこらへんにいるプログラマが適当にやってます

トラブル☆しゅーたーず #02に行ってきた

トラブル☆しゅーたーず#02 ~あいつがまたやらかした~ on Zusaarに参加してきました

リンク先にもありますが要は発生した障害に対して

  1. 障害を復旧させ
  2. 原因を追求し
  3. 報告書/提案書を作成

というイベントです

……せっかくのお休みに嬉々として障害対応しに行くんだからどうかんがえてもドMですほんとうにありが(ry意識の高い参加者の方々でした

概要

運用を受託されているECサイトで障害発生
18時にはテレビでサイトが放映されるため、それまでに解決しなくてはならない

タイムテーブル的にはこんな感じ

04:00 あのやろう山◯くんサイト更新作業完了
14:00 お客様より第一報
15:30 お客様へ一次報告
16:00 番宣番組放送
18:00 本放送

詳細はこんな

…今見ても胃がキリキリする(–;

結果としては、アプリは復旧できたがECCUBEの管理部は復旧できず
負荷対策も…といった感じ
それでも中間順位は2位ぐらいにつけていたので優勝までもう一歩だったかな?
自分は主にアプリの修正等々をやってましたが、DBを調査してくれた方の情報と合わせてなんとかアプリ復旧までこぎつけたのはよかったなと思います

最後には各チームでお客様へ向かって障害報告・再発防止案などを説明する謝罪タイム
だから休日なのになんでこんな悲しいお話聞いてるんだろう、自分たち…

お客様(@tmaeさん)よりのお説教タイム

マジお通夜状態
リアルでこんなんなったら泣きます…

@tmaeさんのお話を聞いて思ったこと等々

もっとお客さんの立場を考えるべき

15:30に一次報告をと言われて結局大抵のチームはギリギリかオーバーしてしまっていた
大抵のチームがある程度復旧への道筋を立ててから説明しようとしてこんなことになったんだろうけど、あくまでそれはこちらの論理なんだよね
お客さんの立場からすれば何が起きているのか、どういう対応をしているのかを知りたいはずなのでまずは状況の説明だけでも構わないので一次報告は迅速にすべきだなぁ

なにを最優先すべきなのか

目の前に壊れてるものがあるとどうしても最優先で直したくなっちゃうけど、それがお客様の望んでいることなのかは場合による(今回は自転車の画像を引くのが最優先だった)ので、頭のどこかに置いておかないといけないよな

馬場さん(@netmarkjp)の解説タイム

まさか山◯くんがクラウド上にバックアップ取ってるとは‥ そこに気付ければ1時間は変わった気がする

バックアップが取れていれば既存のインスタンスを破棄して、更新作業を最初から遣り直すとかもできるのはクラウドのいいところ
ここらへんはCROSS2012とかでも聞いていたけど、実際作業中は考えもしませんでした(汗
まだまだクラウド脳にシフトしてないな

その後は懇親会で山◯くんどうなん?とかそもそもあの手順書(?)にOK出るのはどうなんだ等々、本当に障害対応後のような空気にw

インフラ系の勉強会ということで大丈夫かなぁ…と思いましたが楽しくいろんなことを学べた気がします
次回もトラブル直しに来ようと思います

Comments