🧠Zenn3月25日· 2分で読める中級音声AIの全体像を整理する(STT / LLM / TTS)音声AIはSTT→LLM→TTSの3レイヤーで構成されていますが、実装時は全てを使うとは限りません。議事録作成ならSTT+LLMだけで、音声アシスタントなら全層が必要です。Whisper・Ollama・VOICEVOXなど具体的なツールを紹介しつつ、精度・レイテンシ・コストのトレードオフや、カスケード型からEnd-to-End型への進化も解説。プロダクト化時の実装視点も実践的です。#音声AI#STT#LLM♡0👎☆ 保存記事を読む →