Reactio運営責任者の @norinux です。 2016年7月に、無料化してから気付けばまもなく半年を過ぎようとしています。 Gaiax Advent Calender に便乗して、Reactioについてすこしおもひで話をします。
Reactioとは?
2015年の5月に正式リリースした当時は、まだ数社しか利用していなかったサービスが、1年半以上立つと、400オーガニゼーションを超えるくらいに成長して来ました。
Reactioがどんなサービスかというと、下記の製品サイトをご覧ください! (雑なのはご愛敬でw)
現在のサービス利用状況としては、登録されたインシデント数は合計26000インシデント以上。 自社利用を元に考えると、おためしで立てたテストや、ただ通知として利用しているケースなども含まれているかと思うので、すべてが実際に起きた障害としてカウントできないですが、平均すると一日50件近くのインシデントが日々登録されているという状況です。
そんな、Reactioが生まれた経緯をご紹介いたします。
Reactioが生まれたワケ
まだ当時(2013年頃)、私がインフラのリーダーを担当していた頃は、すべてオンプレミスで、1000ノード近くのサーバをインフラチームで運用していました。
やはり、1000ノード近くあると日々何かしらのトラブルが発生していました。 そのたびに、関係者への連絡、原因の調査、暫定対応、恒久対応の検討と実施、そして障害報告を作成するのが、チームの重い仕事のひとつでした。
ある日、いつものように発生したトラブルが、大問題に発展したのです。
それは、Aサービスという受託開発プロジェクトでした。 Aサービスには、A社という発注元の会社と、Gaiaxの開発チーム、私がいたインフラチームという三つのステークホルダーがあったのですが、その連携でミスが起こりました。
発生した大問題
- 1:00
- 障害が発生(インフラチーム)
- H/W,OS,ミドルウェアに問題はなく、アプリケーションが原因でトラブルと判断
- エスカレーション(インフラチーム)
- インフラチームが、営業担当と、開発チームに電話で連絡
- 障害が発生(インフラチーム)
- 1:30
- 障害対応(開発チーム)
- 営業担当が指揮して、開発チームで障害対応を実施
- 営業担当がインフラチームに追加調査を依頼
- インフラチームが、調査結果を報告
- 障害対応(開発チーム)
- 2:00
- 障害復旧(開発チーム)
- 障害が復旧し、クライアントのA社に報告メールを送信
- 障害復旧(開発チーム)
- 3:00
- 障害が発生(インフラチーム)
- 開発チームで障害対応中で、継続アラートだと判断。
- 障害が発生(インフラチーム)
- 9:00
- 障害が発覚(クライアントA社)
- ユーザからの報告でクライアントのA社がサービスが閲覧できないに気付く
- A社から営業担当にエスカレーションされて発覚
- 障害が発覚(クライアントA社)
もう私が気付いた時には、あとのまつりでした。 その数日後、この問題を部署内の会議で報告し、別の開発チームが、「なんとかしたいね!」と共感し立ち上がってくれて分析したのです。
今までの考え方は、連絡網を用意して予め用意した手順に沿って対応して、情報を整理した上で、原因分析して報告しましょうという考え方でした。
しかし、障害というのは「いつ」「どこで」「どんな問題」が起こるかわからないので、計画的な対策ではなく、反応性が非常に重要だったのです。 そして生まれたのが、Reactio(当時:Twinkling)という社内ツールでした。
その後は、事業としてサービス化したくさん社外に方々に利用頂けるようになりました。 自社特化した機能を使いやすくするために多くの改修を進めきて、いまでは無料化し少数精鋭で運用している状況ではあります。 それにしても、エンジニアが気付いた課題を、エンジニアが解決するツールを作って、 それが世の中のエンジニアが利用してもらうというのは、エンジニア冥利につきる最高の体験です。
最近は素晴らしく便利なSaaSが沢山あるので、わざわざ自社ツールを作るケースは減りつつあるとは思います。ましてや作れば負債を産んでしまうという考え方もあります。 しかし、はじめに誰が言ったかはしらないですが、「ないものは、つくるしかない。」というエンジニアドリブンな心持ちが、私は大好きです。
ちなみに、12/21に、「エンジニア交流会〜マル秘?こだわりに社内ツール社内ツール大公開!」という交流会イベントを開催しますので、興味のある方は是非ご参加ください!!! (※Reactioの話は一切しませんがw)
以上!