「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策
スクウェア・エニックスのサーバ管理事例が「Cloud Operator Days Tokyo2023」の
セミナーで紹介されたようです。
膨大な数のゲームを提供している同社ですが、想像通りサーバの量も大量です。
当初バックエンドは「仮想マシンVM」、「MySQL」、「Redis」、「Apache Kafka」で
構成されていました。
サーバ台数も数百台となりほぼ手動で管理していたためかなり大変だったようです。
そこで以下のツールを導入しました。
・Terraform:BaseImageからサーバを自動構築
・ANSIBLE:設定作業の自動化。初期化・リカバリ処理も自動化
・Test Tool:ツール名非公表。設定実行後にテストを自動実行し結果をSlackで通知。
Terraformではyamlでサーバ情報を定義しますが、
1台あたり50行近くなってしまうため、スプレッドシートにまとめた情報から
yamlファイルを生成するツールを構築したようです。
とくにTest Toolにより設定を自動化したことが大きいそうです。
例えば保守作業のために一時的に設定値を変更したが、
元に戻すのを忘れてしまったということが今まであったそうです。
サーバの数が多くなると二重チェックでは検知しきれなかったり、
膨大な労力が必要だったりと大変です。
UvanceでもIaC対応を行ってますが、今後は構築・運用・保守作業を
自動化し、効率化、人手不足対応することが主流となってきそうです。
<元記事>
「ダブルチェックを頑張る」でごまかさない、スクウェア・エニックスのサーバ設定漏れ防止策
https://atmarkit.itmedia.co.jp/ait/articles/2310/23/news011.html