Gaiax Engineers' Blog

Gaiaxのエンジニアブログです。 社内のエンジニア様子、イベントレポート等を発信していきます。

エンジニア綺譚(夏のゾッとした話)

弊社エンジニアSが送る、ちょっとした小話マンガ。今回は真夏にピッタリのゾッとした話を描いてもらいました。

ジンクスあるある

f:id:gaiax-kaito:20190822181537p:plain

  • インフラメンバー全員で、同僚の結婚式に参加。
  • メンバー全員でイベントに参加すると何かしらの障害対応を行うはめになよねー的なジンクスを笑いつつ、飲み食いまくり。
  • 非常に良い式で、千鳥足で2次回にも参加。
  • 無事に終了というところで、ホストダウンのアラートメール受信。
  • サービス担当者も式に参加していたので、逃げ切れず礼服のままデータセンターへ。
  • RAIDカード交換で復旧。ジンクスっぷりに、ゾッとした。




大ループ

f:id:gaiax-kaito:20190822181619p:plain

  • データセンターのコアスイッチリプレイス作業。
  • 全体の構成もSPTからLAGに変更。コアスイッチはstack構成と、大規模作業になった。
  • 全幹線ケーブルを新しく挿しなおすため、手順書慎重に作成し、手順書通りに作業。
  • 作業完了直後から、アラート大量発生。
  • のちに監視サーバもループの影響を受けて、アラートする届かなくなる。
  • ディストリビューションスイッチのLEDが、まぶしいぐらいに点灯。
  • 挿し替えたケーブルを追うもの、手順書を見直すもの、あたふたするものに分かれて復旧作業。
  • 手順書に不備があり、ケーブルを正しいIFに挿し替えて、スイッチ再起動し復旧。
  • 全サービスに影響が発生し、ゾッとしたどころではなかった。




監視サーバが障害!?

f:id:gaiax-kaito:20190822181646p:plain

  • 監視サーバのIF障害。リモート接続できなくなり、現地対応になった。
  • その1時間ほどの間、監視サーバは監視対象に疎通できなくなっているのでアラートメールがキューに溜まり続ける。
  • 慌てて復旧作業。LANケーブルを別のSWポートに挿し替えて復旧(この時、メールキューのことはすっかり忘れてた)。
  • 復旧と同時に送信される、1000通以上のアラートメール。
  • アラート受信携帯を、離れた机の上に置いていたためすぐに気づけず、
  • 新婚旅行中の先輩宛てに送信され続けるアラートメール。
  • 申し訳なく、パケット代も心配で、静かにゾッとしてた。