概要

人と会話するときに受け取れきれなかった相手の微細な変化をアプリ分析し、会話の補助してくれる。些細な表情や声色の変化、喋った内容から相手がどういう感情と意図でそれを発言したのかを教えてくれるアプリ

技術構成

フロントエンド：React + Vite（TypeScript）バックエンド：FastAPI（Python）ライブラリ/外部API 【表情認識】 DeepFace：静止画から表情（怒り/嫌悪 /恐れ /喜び/悲しい/驚き/無表情）を推定。【ジェスチャー】 MediaPipe Tasks (GestureRecognizer)：手のジェスチャーをリアルタイム検出【目的・意図の推定】 Gemini API（1.5 Flash）：感情>ジェスチャー>テキストの優先度で総合判断。

【音声認識】 - サーバーモード：faster-whisper（小型モデルsmall, CUDA対応時はGPU/FP16） - ブラウザモード：Web Speech API

機能

会話内容の文字起こし
- サーバーモード（faster-whisper）とブラウザモード（Web Speech）を切替可
- サーバーは録音停止時にまとめて文字起こし。ブラウザはリアルタイムで即時に文字起こしがされる
顔の表情からの感情分析（0.5秒間隔）
- DeepFaceで顔の表情からその時の感情を分析・取得し、顔付近に日本語で表示
ジェスチャー取得（リアルタイム）
- MediaPipeで手のジェスチャーを検出し、顔付近に日本語で表示（例：Thumb_Up→「いいね」）
AIによる本当の感情と意図の分析
- 直近の「感情スナップショット」と「ジェスチャー」と「テキスト」を1セットでGeminiへ送信
- 優先度は「①感情 → ②ジェスチャー → ③テキスト」
- 応答の「①本当の感情と意図」「②心の声」を顔の周りに別々のオーバーレイで表示