Zenn· 2分で読める中級🔥 注目
【Nishika 論文サク読み 第4回】EmoVoice
EmoVoiceは、LLMを音声合成のバックボーンとして活用し、「嬉しくて仕方がない様子で」といった自由な自然言語で感情をコントロールするTTSモデルです。グループトークンモデリングで学習速度を2.64倍に高速化し、音素の並行出力で読み間違いを18%削減。GPT-4oで生成した合成データ(40時間)のみで学習しながら、WER2.62の高精度を実現しています。従来のパラメータベースTTSから、より直感的な感情表現へのシフトを示す実装例です。