Qiita· 2分で読める中級🔥 注目
図・表・JP/EN混在PDFでRAGはうまく動くのか?軽く検証してみた
複雑なPDF(図表混在・JP/EN・レイアウト崩れ)でRAGを試すと、シンプルな構成では読み順の崩れ・表構造の喪失・根拠提示困難など多くの問題が発生します。著者が複数のアプローチ(PyMuPDF・DeepSeek-OCR・画像検索)を検証した結果、本質的な課題はツール選択ではなく「前処理の設計」にあることを発見。テキスト抽出から「構造ごと取り出す」設計へのシフトが必要だと気づきました。実装上の落とし穴を具体的に学べる内容です。