#音声合成

2件の記事

【Nishika 論文サク読み第4回】EmoVoice

EmoVoiceは、LLMを音声合成のバックボーンとして活用し、「嬉しくて仕方がない様子で」といった自由な自然言語で感情をコントロールするTTSモデルです。グループトークンモデリングで学習速度を2.64倍に高速化し、音素の並行出力で読み間違いを18%削減。GPT-4oで生成した合成データ(40時間)のみで学習しながら、WER2.62の高精度を実現しています。従来のパラメータベースTTSから、より直感的な感情表現へのシフトを示す実装例です。

#LLM #TTS #音声合成

記事を読む →

⚡

Zenn3月20日· 2分で読める中級🔥 注目

【第4章】友達の声を5分録音したら、AIがその声で喋り始めた ── GPT-SoVITSでElevenLabsを捨てた話

友達の声を5分録音するだけで、その声でAIが自然に喋り始める。クラウド音声合成ElevenLabsから完全ローカルのGPT-SoVITSへ移行し、API代ゼロ・レイテンシ1秒未満を実現した実装事例です。ボイスクローニングの仕組み、選定理由、前処理からファインチューン完了まで8分で完了する実装フロー、VTuber向けの本格的なシステム統合まで、具体的なコード・パラメータ・成果指標が詰まっています。

#音声合成 #GPT-SoVITS #AI駆動開発

記事を読む →

【Nishika 論文サク読み 第4回】EmoVoice

【第4章】友達の声を5分録音したら、AIがその声で喋り始めた ── GPT-SoVITSでElevenLabsを捨てた話

【Nishika 論文サク読み第4回】EmoVoice