#トークナイザー

✍️

Qiita3月20日· 2分で読める中級🔥 注目

AIは日本語が苦手？トークンとデータで見る言語格差の現実

ChatGPTは日本語が英語より低精度なのは気のせいではありません。学習データに占める日本語の割合は約4%（英語の1/10以下）で、さらにトークナイザーの仕様で日本語は1文字あたり約1トークン必要なため、同じ意味でも英語の2倍以上のコストがかかります。実装上の対策は簡潔です：英語でプロンプトを書き、末尾に「Always respond in Japanese」と指定するだけで、トークン消費が30〜50%削減できます。東工大のベンチマークでも日本語タスクでの精度差が実証されており、システム構築時は英語プロンプト・日本語出力の構成が両面で有利です。

#プロンプトエンジニアリング #トークナイザー #LLM

記事を読む →

📰

Zenn3月6日· 2分で読める中級🔥 注目

【SpicaLM #2】BPE Tokenizerの設計と実装

SpicaLMの自作LLMプロジェクトにおいて、Byte TokenizerからBPE Tokenizerへの進化過程を実装レベルで解説しています。日本語テキストでByte Tokenizerを使用すると系列長が3倍になり、注意機構のコストが9倍に増加する問題を発見。BPEアルゴリズムを導入することで、14時間かかっていた学習処理を7分に短縮した実践的な最適化プロセスを追体験できます。

#LLM自作 #トークナイザー #BPE

記事を読む →