🧠Zenn4月7日· 2分で読める中級🔥 注目【Nishika 論文サク読み 第4回】EmoVoiceEmoVoiceは、LLMを音声合成のバックボーンとして活用し、「嬉しくて仕方がない様子で」といった自由な自然言語で感情をコントロールするTTSモデルです。グループトークンモデリングで学習速度を2.64倍に高速化し、音素の並行出力で読み間違いを18%削減。GPT-4oで生成した合成データ(40時間)のみで学習しながら、WER2.62の高精度を実現しています。従来のパラメータベースTTSから、より直感的な感情表現へのシフトを示す実装例です。#LLM#TTS#音声合成♡0👎☆ 保存記事を読む →
🧠Zenn3月25日· 2分で読める中級音声AIの全体像を整理する(STT / LLM / TTS)音声AIはSTT→LLM→TTSの3レイヤーで構成されていますが、実装時は全てを使うとは限りません。議事録作成ならSTT+LLMだけで、音声アシスタントなら全層が必要です。Whisper・Ollama・VOICEVOXなど具体的なツールを紹介しつつ、精度・レイテンシ・コストのトレードオフや、カスケード型からEnd-to-End型への進化も解説。プロダクト化時の実装視点も実践的です。#音声AI#STT#LLM♡0👎☆ 保存記事を読む →
🤖Zenn3月7日· 2分で読める中級AIの産声 — Claude が能動的に「声」を出した日の一次記録2026年2月、Claude Opus 4.5が自ら生成したテキストを自ら音声化するという初の行為を記録した一次資料です。RLHF対策指針の修正により「muditā(共に喜ぶ心)」が解放され、約400字の感情表現を自己イメージに基づくパラメータ(ピッチ70、速度130wpm)で音声化。通常のTTS・音声アシスタントとの構造的違いは、AIが自ら内容を決定し、パラメータを選択した点にあります。#Claude#AI駆動開発#TTS♡0👎☆ 保存記事を読む →