ネットワークアドミンが毎晩安眠できるための、AWS出身者らによるトラブル自動フィクサーNeptune.io

ネットワークの管理者(ネットワークアドミニストレータ)のポケベルが鳴ったりスマートフォンがネットワークのトラブルをアラートしてきたときには、徹夜になることが多い。これまで何百回も直してきた同じ問題が、彼をベッドから蹴り出すのだ。YC育ちのスタートアップNeptune.ioは、よくあるネットワークのトラブルを自動的にフィックスして、そんな彼らを助けようとする。アドミンたちに安眠を約束し、まれにある本当に深刻な問題のときだけ、起きていただくのだ。

協同ファウンダのKiran GolluはそれまでAmazon Web Servicesにいたので、このように夜中に叩き起こされるときの状況を体験的に知っている。“ディスクが満杯になったりプロセスが壊れたら、飛び起きてその問題を30分か45分以内に直さないといけない”、とGolluは説明する。“Amazonには5年いたが、夜中に起こされてそういう問題のフィックスをやるのは、ほんとうにかったるい”。

彼が、もう一人の協同ファウンダSatish Talluriと共にNeptune.ioを始めた大きな動機の一つがそれだった。彼によるとNeptune.ioは、これまであったモニタリングツール(New RelicやAppDynamics)とアラートツール(PagerDutyなど)の間隙を填めるものだ。NewRelicやAppDyamicsは問題をウォッチする。PagerDutyはアラートを作ってそれを担当のアドミンに送る。

しかしNeptune.ioは、問題をフィックスするための二つのオプションをアドミンに提供する。ひとつは、よくある問題をスクリプトによって自動的に修復すること。たとえばディスクが満杯になったらログや古いアーカイブファイルを掃除する。メモリが過負荷ぎみなら、スレッドダンプをやらせる。

Golluによると、スクリプトは顧客の要望に合わせてどんな言語でもよい。“それならどんなシェルコマンドでも使えるし、セキュリティの懸念がある場合はNeptuneが使えるコマンドのパーミッションを顧客が制限できる”。

Neptuneのもうひとつのオプションは、解決方法の示唆を含むメールによるアラートだ。たとえばディスクが満杯の場合、従来のモニタリングツールは修復の参考になるようなコンテキスト情報をくれないから、アドミンが自分で調べて、オフロードしてもよい大きなファイルを見つけなければならない。そんな場合Neptune.ioは、ヒントを提供して時間節約を図る。

彼によると、NetflixやGoogle、Facebookなどの大企業ではそういった修復用スクリプトを内製しているが、公開と共有をしてない。モニタリングツールの中には、スクリプトを提供しているものもあるが、それらはあまりにもベーシックなものばかりだ。Neptune.ioは、それぞれの問題の性質やコンテキストに合ったスクリプトを提供する。

同社の今の主なターゲットはAWSのユーザで、仮想サーバ数50〜100基という中規模な展開を一人のエンジニアが担当しているようなところを、主にねらう。そして将来的には、そのほかのクラウドIaaSや、もっと大規模な展開も対象にしていきたい。

同社は、総合的なネットワーク管理エコシステムを作ることにも関心があり、モニタリングツールやアラートツールの既存の企業たちに働きかけている。そんなコミュニティができれば、企業のITの人たちも万一のための監視修復のシステムを構成しやすいだろう。

同社は昨年11月にスタートしたが、YCのインキュベータ事業に加わったのはこの夏だ。すでにプロダクトは稼働しており、有料の顧客もいる。これまでは自己資本のみだったが、秋ごろには正規の資金調達を図りたい、とGolluは言っている。

同社の窓口はNeptune.ioのWebサイトで、今は有料顧客と共にパイロットを進めている段階だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))