介绍

一个强大的少镜头语音克隆AI,1分钟的语音数据也可以用来训练一个好的TTS模型。
项目地址:https://github.com/RVC-Boss/GPT-SoVITS

步骤

下载并解压Windows预打包文件
下载地址:https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true

运行web-ui
2024-02-08T08:28:13.png
之后会自动转到web控制台
2024-02-08T08:32:05.png
因为我的是视频素材所以第一步要开启人声分离模块
2024-02-08T08:38:37.png
等待一会,会自动进入模块控制台
填写输入待处理音频文件夹路径,模型选HP2,导出文件格式选WAV,其他全部默认即可。
2024-02-08T08:39:43.png
2024-02-08T08:43:56.png
等待一会,等他完成会在GPT-SoVITS-beta\output\uvr5_opt目录下出现俩个文件,一个是背景声文件(instrument)一个是人声文件(vocal)
2024-02-08T08:48:11.png
接下来是去除混响和延迟
2024-02-08T08:54:04.png
2024-02-08T09:04:27.png
2024-02-08T09:05:58.png
去混响选模型
2024-02-08T08:55:49.png
去延时选模型
2024-02-08T08:56:32.png
在处理完成后得到的“vocal_vocal_vocal_”开头的文件就是我们需要的人声文件,给这个文件单独放到一个新的空文件夹,开始文件切割,最后得到的切割文件在GPT-SoVITS-beta\output\slicer_opt目录
2024-02-08T09:10:03.png
批量离线ASR,导入分割文件目录
2024-02-08T09:15:11.png
打标注,标注文件的路径在GPT-SoVITS-beta\output\asr_opt目录,然后开启ui
2024-02-08T09:17:36.png
等待一会就进入标记管理webUI,这一步最好一点一点调试,确保没有错别字
2024-02-08T09:25:11.png
调试完成后点击save保存(先Submit Text)
2024-02-08T11:22:01.png
2024-02-08T09:32:31.png
下一步训练数据格式化,为模型起名,添加文本标注文件地址,训练集音频文件目录
2024-02-08T09:36:15.png
修改好后点击一键三连
2024-02-08T09:37:31.png
一键三连成功结束后,进行微调,不会调整就直接默认
2024-02-08T09:40:03.png
推荐参数:
2024-02-08T09:41:49.png
调整好后开始训练,点击开始SoVITS训练
2024-02-08T09:44:09.png
2024-02-08T09:44:38.png
训练完成,然后点击第二个GPT训练
2024-02-08T09:46:40.png
训练完成,先点击刷新模型,下拉列表选择数字最大的模型
2024-02-08T09:48:06.png
开启TTS推理
2024-02-08T10:36:41.png
在推理UI界面,上传并填写参考信息
2024-02-08T11:07:26.png
最后就可以在需要合成的文本中克隆声音了
2024-02-08T12:25:50.png

可能遇到的问题(持续更新)

训练完GPT_weights和SoVITS_weights文件夹没有模型文件

首先查看报错,可能是文件太小不符合每张显卡的batch_size导致无法保存。先尝试把该参数改成1
再次训练,查看那俩个文件夹是否生成出了模型文件

文章目录