RAGの検索精度を3軸で測ったら最適解が条件で全く変わった
AI要約
RAGの実装で「BGE-M3が安定」「ベクトル検索で十分」というよくある推奨は、実は条件次第で全く変わります。日本語テクニカル記事1,500チャンクで実測したら、E5-smallがBGE-M3より9倍速く品質も同等、BM25は形態素解析を入れるだけでスコアが63%改善。最大の発見は「日本語トークナイザの問題が全ての元凶」だったことです。アルゴリズム選択より基盤の壊れた部分を直すことが重要という、実装者が直面する本当の課題が見えます。



