2017年9月26日(火曜日)に「【エンジニア交流会】他社の障害対応、きにならNight!」というイベントを開催しました。
今回のテーマは、インフラエンジニアが恐れる障害発生と対応をざっくばらんに語る会として、様々な方に登壇頂きました。
好評に終わった前回の開催から2年を経ての開催でしたが、やはり他社の障害内容は気になるもの!
今回も沢山の方々にさんに参加のご応募をいただき、キャンセル待ちが発生するほどでした。 (1回目と2回目の「きにならNight!」の様子はこちら)
blog.reactio.jp blog.reactio.jp
以下、今回登壇者の方々に発表いただいたトーク内容です。
※内容が障害に関するものですので、一部内容を伏せた状態で記載させていただいております。ご了承ください。
- サイレント障害への取り組み ~ネットワーク周り~(鈴与株式会社 高橋正和氏)
- 障害対応と防止策(@xtetsuji氏)
- 運用担当が直近のリリースを安心して切り戻せる工夫(@toku_bass氏)
- メールが止まりません(株式会社イノベーション 城田潤一氏)
- ◯社のあれ(@yut148)
- パフォーマンス問題から社内ISUCON開催へ(モンスター・ラボ 平田大輔氏)
- はてな某サービスの障害にみるはてなの障害発生から共有まで(@dekokun氏)
サイレント障害への取り組み ~ネットワーク周り~(鈴与 高橋正和氏)
「半分グチなので、ここで吐き出してスッキリして帰りたいです」笑いを誘い会場を温めてくれた高橋氏。
実際に起きたサイレント障害の内容と、それらの経験から得た知見から、現在行っている取り組みを話していただきました。
障害対応と防止策(@xtetsuji氏)
弊社ガイアックスからは @xtetsuji が登壇!小ネタをオムニバス形式で発表!
海外拠点を構築したときに体験した、海外だからこそ起きた事件を話してもらいました。
運用担当が直近のリリースを安心して切り戻せる工夫(@toku_bass氏)
まさにタイトルどおりの内容を語ってくれた @toku_bass 氏。
リリースが原因で起きたであろうトラブル時に「とりあえず切り戻したい!」という要望を気軽にできるするために行なった事を話していただきました。
◯◯さん、メールが止まりません!(株式会社イノベーション 城田潤一氏)
「今回の会で一番恥ずかしい障害内容だと思います」と前置きを置いて笑いを誘った城田氏。
チームに無数に送られるシステムメール。
原因はまさかのところから発生していた・・・・とても興味深い話をしていただきました。
◯社のあれ(@yut148)
みなさんもよく使っているであろう、◯社のあの機能について起きたトラブル。
作り手は使用する側に常に立つ必要があると考えさせられました。
パフォーマンス問題から社内ISUCON開催へ(モンスター・ラボ 平田氏)
「身を切るような思い」と社内で起きた様々なトラブルを発表していただいた平田氏。
スキル不足の認識から世界中の拠点をまたいで社内ISUCONを行なった話をしていただきました。
写真を見るととても盛り上がっているようで羨ましい!
はてな某サービスの障害にみるはてなの障害発生から共有まで(@dekokun)
某ミドルウェアの性能劣化に起因する障害について、お話していただきました。
公式のドキュメントに乗っていない内容をどうやって見つけたのか、貴重になるお話も聞く事ができました。
みなさんの発表後に懇親会も行なったのですが、こちらも大変盛況でした。
印象的だったのは、今回参加してくださった殆どの方がインフラ担当者だったこと。
また、発表者の方から「みなさん、こういうときってどうしてますか?」と発表中に逆質門する事が多かったことも印象的でした。
やはりみなさん、原因不明なトラブルに見舞われる立場だからこそ、他の会社ではどうやっているか気になるものなのですね。
ガイアックスでは今回行なったようなエンジニア交流会を定期的に開催しております!
こういった場で知見を共有できる仲間を見つけていただければ幸いですので、ご興味がありましたら、是非ご参加ください!