IndexTTS 是一种主要基于 XTTS 和 Tortoise 的 GPT 风格的文本转语音 (TTS)模型。它能够使用拼音纠正汉字的发音,并通过标点符号控制任意位置的停顿。它增强了系统的多个模块,包括改进扬声器条件特征表示,以及集成 BigVGAN2以优化音频质量。此系统经过数万小时的数据训练...