こんにちは。
サービスインフラの玉木です。
今回は「インフラ裏話、テンパった話」について執筆したいと思います。
インフラはテンパったらアウトであると痛感するのですが、例え自分が作業している状況でも客観的に自分の作業を問うのがテンパらないコツと思います。
ちなみに私がいつも思っていることは
「この作業終わったあとって、誰がこの運用の面倒見るんだろう。。。多分、俺なんだろうな!」
です。
早速ですが、ここはテレビでよくあるベスト3方式で紹介していきたいと思います。
3位 システム構成から運用フローまでを予想で作業
入社早々、7日目にして、「Sumo Logicを導入してくれ」と言われました。
それなりにインフラ歴は長いため、「本番導入までやって」という意味であることはツーカーで悟ります。
それまでは10ANTZにはインフラエンジニアがいない状況でしたので、システム構成からミドルウェアの構成まで0から調査し、初めて触る「Sumo Logic」のドキュメントを読み漁り、エンジニアはどのようにログを調査使用しているかヒアリングし、そして今後の運用シーンをイメージする必要がありました。
(まだ社員の名前すら覚えてない状況です)
どうにか1週間で終わらせることはできましたが、なかなかの無茶振りでした。
現在は多くのドキュメントを残すよう運用しているので、このようなことはほとんどないと願ってます。
2位 いきなりリモートワーク
終業1時間前のことです。
「緊急事態宣言だから、全社員、明日から在宅作業できるようにして」と言われました。
もちろん心の中では「え?」です。
それまではセキュリティ上の理由で、自宅からリモートで作業することが滅多に許されない状況でした。
使用者は制限されてましたがVPNがあったため、10ANTZのGIPに対する穴あけを、各プロジェクトの各サーバーに設定し、社内システムのサーバーなどにも設定しました。
AWSを使用しているため、漏れなくセキュリティグループに登録し、また、社内サーバーはApacheやNginxにAllowを設定しました。
Googlebotクローラーにキャッシュされないようにもしたりです。
安全のため、1日でやっていい作業範囲ってあるんですよね。
漏れたら出社するしかないので、「これは自分のためにだと」、残業時間であっても全力疾走でやり遂げました。
確認含め2時間ほどの残業で終わることができました。
こういうところはベンチャー気質のフットワークが軽い良いところと思います。
1位 もしかして侵入された
これは前職での出来事です。
担当エンジニアから「サーバーがなんか重いんだけど」と連絡を受け、監視システムを見たり、実際にログインして「top」で見たりしました。
「ps -ef」で確認したところ見慣れないプロセスが動いてました。
実体はバイナリでしたので「string」で確認すると、「tool」やら「hack」の文字、それと見慣れないURLが色々と表示されました。
システムログも空、コマンド履歴も空にされてました。
もちろん、すぐさまそのサーバーのネットワークを遮断です。
(SSH通信だけは切らないように、この作業が1番ヒヤヒヤしました)
侵入の対応だなんて資格勉強くらいでしか登場しないのに、「実際にこの日が来ようとは」の気持ちでした。
「この対応であってるんだっけ?」の自問自答です。
原因はミドルウェアの設定ミスによるものでした。
誰が設定したかを詰めても意味がないので、ひとまずはすべてのサーバーの設定を改修し、構築および運用の改修を行いました。
試しに検証サーバーを準備し同じ設定で様子見をしたところ、ものの10分足らずで侵入されました。
いつも「うちのシステムはなんだか安全だなあ」と思ってましたが、意外と瀬戸際な世界なんだなと思い知らされました。
終わりに
今だからこそ武勇伝のように語れますが、実際その場に立たされるとかなりの修羅場だったと、今は黄昏ほどです。
システム的にも業務的にも、なにより私的にも落ち着いてきたということになりますね。
ほとんど雑記ですが、以上になります。