The Codec Language Model-based Zero-Shot Spontaneous Style TTS System for CoVoC Challenge 2024

submitted to ISCSLP 2024 Conversational Voice Clone Challenge.

Abstract

This paper describes the zero-shot spontaneous style TTS system for the ISCSLP 2024 Conversational Voice Clone Challenge (CoVoC). We propose a LLaMA-based codec language model with a delay pattern to achieve spontaneous style voice cloning. To improve speech intelligibility, we introduce the Classifier-Free Guidance (CFG) strategy in the language model to strengthen conditional guidance on token prediction. To generate high-quality utterances, we adopt effective data preprocessing operations and fine-tune our model with selected high-quality spontaneous speech data. The official evaluations in the CoVoC constrained track show that our system achieves the best speech naturalness MOS of 3.80 and obtains considerable speech quality and speaker similarity results.

Audio samples for different prompts

Here are some audio samples from the results we submitted to the official competition.

Text Prompt Proposed
我觉得是这样的就是嗯这个东西呃,粗浅的称呼它为稚气吧。
所以我觉得可能啊经常保留相片是一个非常好的习惯。
嗯还有什么呢印象当中啊特别小特别小的时候还学过游泳。
哈喽林暖,那呃最开始呢我想问一下你呃有没有那种晕车的经历?
他总共就只卖这么几样商品,但是呢,确实味道非常的不错。
对啊所以一般就是国家政策特别好,一般节假日高速是免费的呀。
啊,再加上啊以前确实我也有一个考飞行员的一个计划。
说到这种小众的旅游景点啊,不知道你有没有什么自己的看法。
然后类似于啊这样的,嗯,不太满意的体验,啊还有很多。
呃就是不知道你有没有一个自己理想当中的房型存在呢?
怎么说呢,就我个人而言的话,啊我还是不太呃喜欢超前消费的。
嗯,个人觉得这些题目啊还是比较简单的,只要你去花时间学了。
唉怎么说呢,我的科目二大概考了三次,然后第三次才过。
嗯好的,那我想问一下你最近有没有嗯读书的这样的一个习惯?
啊我有印象,但是他好像是网综吧,我记得是在互联网上出现的。
对,你说到这个话题啊,就是啊双方都不是对方肚子里的蛔虫。
那肯定是有的,像我之前非常非常喜欢单依纯。
那我觉得嗯怎么说呢,每个人都有这样一段一个阶段嘛!
哦,这个是不是从泰国那边传来的那种鱼疗法,我记得好像是。
除此之外呢,我觉得还有一家早餐店铺啊是非常推荐的。