30件の記事
日本語RAGの精度が英語よりも低くなる根本原因は言語特性にあります。トークン分割やエンベディング品質、検索パラメータが日本語に最適化されていないことが問題です。本記事では、Amazon BedrockとOpenSearch Serverlessを使い、MIRACL-jaデータセットで200クエリを実測評価。Recall@10やMRR@10などの指標を追跡しながら、日本語特有のパラメータチューニング方法を実践的に解説しており、実装者が「動くRAG」から「使えるRAG」へ進化させるための具体的なノウハウが得られます。
OpenAIが公開した社内データエージェント事例から、エンジニアが学ぶべき本質は「AIがSQLを書く」ことではなく、複雑な組織環境での正確性です。3,500人・70,000データセット超という規模で、単なるRAG+SQL変換では届かない、6層のコンテキスト(メタデータ・注釈・コード・組織知識・メモリ・ランタイム)を統合したエージェント設計を解説。失敗前提で自己修正できる仕組みと、組織の暗黙知を蓄積するメモリ機構により、実務で通用する分析エージェントが成立する——業務システムへのAI統合を考えるなら必読です。
Microsoft Agent Framework で自然言語をネットワーク設定変更に変換するシステムを実装した事例です。Orchestrator-Worker パターンで複数タスクを DAG 管理し、RAG でベンダー固有の NETCONF スキーマを補完します。ルーター操作の安全性検証を 4つの Safety Boundary で強化。実装コード付きで、LLM の不安定な判断をコードで確定制御に置き換えた設計が実践的です。
RAG運用で「改善されたのか分からない」という課題に、LLM-as-a-Judge手法とRagasフレームワークで定量的に対応できます。Ragasは検索と生成を分離評価し、4つのメトリクス(Faithfulness・Answer Relevancy・Context Precision・Context Recall)で問題を切り分けられます。Amazon Bedrockでの実装例付きで、「どこが悪いのか」を可視化し、改善アクションを導出する具体的なパイプラインを解説しています。
2026年3月にGoogleがリリースしたGemini Embedding 2は、テキスト・画像・動画・音声・PDFを同じベクトル空間に埋め込める世界初のマルチモーダル埋め込みモデルです。これまでRAGではコンテンツの種類ごとに異なるモデルを使う「継ぎ接ぎ問題」がありましたが、単一ベクトル空間で統一することで、テキスト質問と画像回答を直接比較できるようになります。Pythonの実装コード付きで、3072~768次元の柔軟な出力とMRL採用により、検索品質と計算コストのバランスを自在に調整できます。