（コンビニモバイルアプリの）DevOps障害調査支援プラットフォーム

目的

本プロジェクトでは、システムの開発者に対してログ・メトリクス・デプロイ履歴・CI/CDなどの情報を統合し、AIエージェントが障害原因を分析する DevOps障害調査支援プラットフォームを提案する。

自作MCPサーバー×AWSAgnet→おまけで拡張機能も作りました 開発者は IDE や CLI から自然言語で質問することで、「なぜこの障害が発生したのか」を即座に取得できる。

競合ツール

・AWS Observability Kiro Power ・AWS DevOps Agent ・Datadog AI ・NewRelic AI システム全体を横断した原因分析は依然として開発者の手作業に依存している。

導入手順※課題点あり！

前提条件：対象ののシステムにAWS Observability Toolsがはいっていること ➀開発者がクレデンシャルを登録 ➁MCP設定ファイルを設定 ➂Agnet Terraformを導入（対象システムのタグを設定）

システム全体構成1

システム全体構成2

Cursorの出力例

KiroPowers

技術一覧

MCPの実装

対象アプリ構成（リージョンはバージニアです）

※参照：https://files.speakerdeck.com/presentations/eaeafe27138c454f97f2047aa28d785c/slide_26.jpg

展望（盛りだくさん）

・認証周りの強化・MCP追加（CloudTrail/CloudWatch Logs/Datadog）・IDEにMDとして調査結果をまとめる拡張機能・トークン消費量をいかに抑えるか・A2Aで原因調査の精度を上げる・AgnetCoreのベストプラクティスの学習・EventBridgeによるAgnetの自動実行からMD出力

メンバーと役割

・こうめい（AgentCore内部実装＋対象アプリ開発）・マシュー（MCPツール実装＋拡張機能）・岸（全体設計＋認証周り）

反省点

・アプリとインフラの部分を分けないで一括でTerraformで管理してしまった →今回でいうとアプリの部分のECRは分けるべきでした

デモ動画・画像

https://drive.google.com/file/d/1jlYbmIQg7-3ltulugvyemfTc9UZqlju1/view?usp=sharing

リソース指定画面