Gaiax Engineers' Blog

Gaiaxのエンジニアブログです。 社内のエンジニア様子、イベントレポート等を発信していきます。

障害対応管理ツール「Reactio」のおもひで話

Reactio運営責任者の @norinux です。 2016年7月に、無料化してから気付けばまもなく半年を過ぎようとしています。 Gaiax Advent Calender に便乗して、Reactioについてすこしおもひで話をします。

Reactioとは?

2015年の5月に正式リリースした当時は、まだ数社しか利用していなかったサービスが、1年半以上立つと、400オーガニゼーションを超えるくらいに成長して来ました。

Reactioがどんなサービスかというと、下記の製品サイトをご覧ください! (雑なのはご愛敬でw)

reactio.jp

現在のサービス利用状況としては、登録されたインシデント数は合計26000インシデント以上。 自社利用を元に考えると、おためしで立てたテストや、ただ通知として利用しているケースなども含まれているかと思うので、すべてが実際に起きた障害としてカウントできないですが、平均すると一日50件近くのインシデントが日々登録されているという状況です。

そんな、Reactioが生まれた経緯をご紹介いたします。

Reactioが生まれたワケ

まだ当時(2013年頃)、私がインフラのリーダーを担当していた頃は、すべてオンプレミスで、1000ノード近くのサーバをインフラチームで運用していました。

やはり、1000ノード近くあると日々何かしらのトラブルが発生していました。 そのたびに、関係者への連絡、原因の調査、暫定対応、恒久対応の検討と実施、そして障害報告を作成するのが、チームの重い仕事のひとつでした。

ある日、いつものように発生したトラブルが、大問題に発展したのです。

それは、Aサービスという受託開発プロジェクトでした。 Aサービスには、A社という発注元の会社と、Gaiaxの開発チーム、私がいたインフラチームという三つのステークホルダーがあったのですが、その連携でミスが起こりました。

f:id:norinux:20161130233229p:plain

発生した大問題

  • 1:00
    • 障害が発生(インフラチーム)
      • H/W,OS,ミドルウェアに問題はなく、アプリケーションが原因でトラブルと判断
    • エスカレーション(インフラチーム)
      • インフラチームが、営業担当と、開発チームに電話で連絡
  • 1:30
    • 障害対応(開発チーム)
      • 営業担当が指揮して、開発チームで障害対応を実施
      • 営業担当がインフラチームに追加調査を依頼
      • インフラチームが、調査結果を報告
  • 2:00
    • 障害復旧(開発チーム)
      • 障害が復旧し、クライアントのA社に報告メールを送信
  • 3:00
    • 障害が発生(インフラチーム)
      • 開発チームで障害対応中で、継続アラートだと判断。
  • 9:00
    • 障害が発覚(クライアントA社)
      • ユーザからの報告でクライアントのA社がサービスが閲覧できないに気付く
      • A社から営業担当にエスカレーションされて発覚

もう私が気付いた時には、あとのまつりでした。 その数日後、この問題を部署内の会議で報告し、別の開発チームが、「なんとかしたいね!」と共感し立ち上がってくれて分析したのです。

今までの考え方は、連絡網を用意して予め用意した手順に沿って対応して、情報を整理した上で、原因分析して報告しましょうという考え方でした。

f:id:norinux:20161130233845p:plain

しかし、障害というのは「いつ」「どこで」「どんな問題」が起こるかわからないので、計画的な対策ではなく、反応性が非常に重要だったのです。 そして生まれたのが、Reactio(当時:Twinkling)という社内ツールでした。

f:id:norinux:20161130233931p:plain

その後は、事業としてサービス化したくさん社外に方々に利用頂けるようになりました。 自社特化した機能を使いやすくするために多くの改修を進めきて、いまでは無料化し少数精鋭で運用している状況ではあります。 それにしても、エンジニアが気付いた課題を、エンジニアが解決するツールを作って、 それが世の中のエンジニアが利用してもらうというのは、エンジニア冥利につきる最高の体験です。

最近は素晴らしく便利なSaaSが沢山あるので、わざわざ自社ツールを作るケースは減りつつあるとは思います。ましてや作れば負債を産んでしまうという考え方もあります。 しかし、はじめに誰が言ったかはしらないですが、「ないものは、つくるしかない。」というエンジニアドリブンな心持ちが、私は大好きです。

ちなみに、12/21に、「エンジニア交流会〜マル秘?こだわりに社内ツール社内ツール大公開!」という交流会イベントを開催しますので、興味のある方は是非ご参加ください!!! (※Reactioの話は一切しませんがw)

gaiax.connpass.com

以上!