🧠Qiita4月4日· 1分で読める中級🔥 注目LLMの性能をスクリプトで採点できるようにしてみたLLM評価を主観ではなく数値化する仕組みを実装しました。意味適合度・文字数制約・文体模倣性など7つの評価軸をスクリプトで自動採点し、再現性のあるベクトル計算やテキスト解析で点数化します。Embedding・コサイン類似度・正規表現など具体的な技術で、開発サイクルに組み込める客観的な評価基準が実現できます。#LLM#評価指標#AI駆動開発♡0👎☆ 保存記事を読む →
📚Zenn3月14日· 1分で読める中級🔥 注目RAGを使ったアプリ開発のススメRAGアプリ開発は従来型とは根本的に異なります。LLMの非決定論的な性質に対して、「期待値に対して何%応えられているか」という評価軸でシステムを定義する必要があります。ユースケース定義→教師データ作成→E2E評価→継続改善というループを回すことが重要で、特に評価基準の明示化と人間レビューの併用がプロダクト品質を左右します。#RAG#技術・実装#AI駆動開発♡0👎☆ 保存記事を読む →
📚Qiita3月6日· 1分で読める中級🔥 注目RAGの評価方法の実装&比較~失敗談を添えて~【RAGAS】【LLM-as-a-judge】RAG精度評価の実装で直面する課題を、RAGASとLLM-as-a-judge の2つの手法で比較検証しています。実装コード付きで、9つの指標が使える専用フレームワークと、独自プロンプトでの評価方法の長所・短所、さらに著者が遭遇したトラブル事例を紹介。運用段階のRAG開発者にとって、何をどう測るべきかの実践的な指針が得られます。#RAG#RAGAS#LLM-as-a-Judge♡0👎☆ 保存記事を読む →
📚Zenn3月4日· 1分で読める中級🔥 注目Ragasで始めるRAG評価|4指標で“どこが悪いか”を特定するRAGの品質が「なんとなく前より良くなった」では困りますよね。Ragasを使うとLLMが審査員になり、検索精度(Context Precision)と忠実性(Faithfulness)など4つの指標で定量的に評価できます。CI/CDに組み込める実装コード付きで、感覚値に頼らないRAG開発へ一歩前に進めます。#RAG#技術・実装#Ragas♡0👎☆ 保存記事を読む →