冬奥虚拟主持人冬冬如何实现个性化语音定制?
编者注:
“冰雪是冬天的礼物,我最懂冰雪的乐趣。驾驭冰雪是我独有的智慧。想要更多的冰雪玩耍可能吗?跟着我,走向未来!” 当董用语音的合成方式说出这句话时,原说话者惊讶地说,她已经分不清是不是她说的了。
佛学院语音实验室可以通过技术四步流程完成虚拟主机的个性化语音定制。请跟随我们今天的脚步,看看他们是如何做到的!
本文约2091字,推荐阅读时间为7分钟。
介绍
语音 合成是什么?顾名思义,就是把文本变成语音,即TTS(text-to-)。
如今,在媒体配音制作视频的新兴需求下,以及虚拟人结合2D图像甚至3D建模与人交流的需求下,对TTS的要求不仅仅是需要将文本转换成对应的语音,还要让合成语音更有表现力,节奏、音质、情感更接近真人。
那么如何定制一个极具表现力的声音呢?先从冬奥会的虚拟主持人冬冬说起。
Step1 发音人选择
首先,要弄清楚想要的声音是什么样子的,这在佛法学院的语音实验室里叫做声音画像。感觉,时尚活泼,像一个行走的张子枫”,根据这个描述,选择多个演讲者试听一两个特定的句子。
与传统的直接选择音箱不同,达摩院语音实验室采用个性化语音合成技术(PTTS)来评估合成效果。合成其他特定文案的音频,然后根据原始音频和初步合成效果进行综合评估,确定目标说话人。
Step2 录音会话
为保证稳定优质的音频效果,达摩院语音实验室邀请冬冬的目标音箱到符合录音要求的录音工作室。然后根据主办资料的内容和冬奥会的一般场景,通过音素覆盖率的计算,设计出东东演讲者需要录制的文案。录音 人在不同状态下录制的音频可能会有很大差异。记录过程中需要录音指导,录音完成后进行数据质量检查。音频的质量决定了定制声音的上限。为了保证得到的录音音频能有更好的一致性,与传统的人工质检不同,达摩院语音实验室根据音频的特性进行音频检测。自动风格一致的过滤和过滤音频的数量也保证了音素覆盖。
热门资讯