Такотрон 2: Генерация человекоподобной речи из текста

24 декабря 201724 дек 2017

473

~1 мин

Создание очень естественной звуковой речи из текста (текст-речь, TTS) является целью исследования на протяжении десятилетий. За последние несколько лет был достигнут значительный прогресс в исследованиях TTS, и многие отдельные части полной системы TTS значительно улучшились. Включая идеи прошлой работы, такие как Tacotron и WaveNet, мы добавили новые усовершенствования в нашу новую систему Tacotron 2. Наш подход не использует сложные языковые и акустические функции в качестве входных данных. Вместо этого мы генерируем человекоподобную речь из текста с использованием нейронных сетей, обучающихся с использованием только речевых примеров и соответствующих текстовых расшифровок.