#評価・テスト

2件の記事

OpenAIのPromptfoo買収から学ぶ！AIエージェント時代のコード品質評価術

OpenAIがPromptfooを買収したのは、AIエージェント時代における「コード生成品質の自動評価」を標準化するためです。記事は、TDD概念のLLM適用、セキュリティスキャンの統合、モデル間の回帰テストといった実装パターンを、promptfooconfig.yamlの具体例を交えて解説します。評価基盤を整えることで、モデル依存を避け、テスト資産の流用性を確保できる重要性を強調しています。

#AI駆動開発 #エージェント #LLM

記事を読む →

🕵️

Qiita3月7日· 1分で読める中級🔥 注目

Langfuseで回すLLMops

LLMアプリは作って終わりではなく、継続的に性能とコストを管理する「LLMops」が不可欠です。本記事は個人開発の実例をもとに、Langfuseを使ったプロンプト管理・評価・監視の具体的なやり方を解説。プロンプト変更やコスト増加といった運用課題を、回帰テストやLLM as a Judgeで検知・改善する実装パターンが学べます。

#LLMOps #Langfuse #監視・観測

記事を読む →