28件の記事
Inspect AI・Garak・PyRITの3ツールを組み合わせたLLM安全性評価パイプラインの実装ガイドです。OWASP Top 10に基づく脆弱性テストから本番環境のガードレール実装まで、「評価→レッドチーミング→ガードレール→モニタリング」の4層防御モデルを、コード例付きで体系的に解説しています。Inspect AIで評価作業時間を60%短縮、Garakで検出困難な攻撃パターンを自動検出といった具体的な成果も示唆されており、LLMアプリケーション運用時の安全性確保に直結する実践的な知見が得られます。
2026年2-3月にGPT-5.4・Claude Opus 4.6・Gemini 3.1 Proが相次ぎリリースされました。SWE-bench Verifiedでは両者とも80%超を達成し、コード自動修正が現実的になっています。本記事は単なるスコア比較ではなく、各社の戦略的意図を分析。OpenAIはエージェント制空権、AnthropicはClaude Codeによる開発者体験の囲い込み、GoogleはWorkspace統合による実務浸透と、「モデル性能」より「エコシステム戦略」で差別化していることを指摘します。ベンチマーク詳解と価格表で、ツールチェーン選定の実践的判断軸が得られます。
Claude Codeのスキルエコシステムが50から334件超に急成長する中、モデル更新時の品質劣化を検知する課題が浮上しました。Anthropicが3月3日に発表した新機能は、エンジニアでないスキル作者向けにeval自動生成・並列実行・A/Bテスト・説明文最適化を提供。evals.jsonで期待値を定義するだけでpass rateやtoken usageを測定でき、モデル更新後の品質劣化を数値で捉えられます。ただしCI統合による本格運用には結局エンジニアのサポートが必要という実装上の課題も指摘されています。