#評価フレームワーク

3件の記事

SUT‑XR: An External Framework for Evaluating and Improving AI Explanations

AIの説明品質を外部フレームワークで評価・改善するSUT-XRを紹介します。Context→Intent→Structure→Actionの4軸で0～1スコアリングし、8種類の失敗パターンを分類。ユーザーモデル（知識度・緊急度・認知スタイル）に応じて重み付けを動的調整することで、AIの説明の冗長性・矛盾・ずれを定量的に検出できるフレームワークです。

#LLM #ExplainableAI #プロンプトエンジニアリング

記事を読む →

🕵️

Qiita3月24日· 2分で読める中級🔥 注目

EVA入門 2026 — 音声エージェントの「精度」と「体験」を同時に評価する新しいフレームワーク

2026年3月にServiceNowが発表したEVAフレームワークは、音声エージェントを「精度」と「体験」の2軸で同時に評価する初の統合フレームワークです。タスク完了率は高いのにユーザー体験が悪い問題に対し、Task CompletionやFaithfulness、Speech Fidelityなど6つの評価軸を組み合わせることで、見えない品質を可視化します。実装コード付きで、音声エージェント開発の評価手法を大きく変える内容です。

#エージェント #音声AI #LLM

記事を読む →

🕵️

Zenn3月17日· 2分で読める上級🔥 注目

エージェント時代の新しいインフラストラクチャ：マルチエージェントシステムの課題と解決策（2026年3月第2週）

エージェント時代に対応する新しいOS設計、マルチエージェント評価フレームワーク、統一通信プロトコルの3つの重要論文を解析します。AgentOS・MASEval・LDPが示す課題は明確—現在のエージェントシステムはサイロ化・評価方法の欠落・通信の原始性に直面しており、1970年代のOSが果たした抽象化層の役割を、いまエージェント生態系に求める局面です。フレームワーク選択がモデル選択と同等の影響度を持つという実装知見は、AIシステム構築の常識を変えます。

#エージェント #マルチエージェント #MCP

記事を読む →