GPT-SoVITS语音克隆AI使用教程
介绍
一个强大的少镜头语音克隆AI,1分钟的语音数据也可以用来训练一个好的TTS模型。
项目地址:https://github.com/RVC-Boss/GPT-SoVITS
步骤
下载并解压Windows预打包文件
下载地址:https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true
运行web-ui
之后会自动转到web控制台
因为我的是视频素材所以第一步要开启人声分离模块
等待一会,会自动进入模块控制台
填写输入待处理音频文件夹路径,模型选HP2,导出文件格式选WAV,其他全部默认即可。
等待一会,等他完成会在GPT-SoVITS-beta\output\uvr5_opt目录下出现俩个文件,一个是背景声文件(instrument)一个是人声文件(vocal)
接下来是去除混响和延迟
去混响选模型
去延时选模型
在处理完成后得到的“vocal_vocal_vocal_”开头的文件就是我们需要的人声文件,给这个文件单独放到一个新的空文件夹,开始文件切割,最后得到的切割文件在GPT-SoVITS-beta\output\slicer_opt目录
批量离线ASR,导入分割文件目录
打标注,标注文件的路径在GPT-SoVITS-beta\output\asr_opt目录,然后开启ui
等待一会就进入标记管理webUI,这一步最好一点一点调试,确保没有错别字
调试完成后点击save保存(先Submit Text)
下一步训练数据格式化,为模型起名,添加文本标注文件地址,训练集音频文件目录
修改好后点击一键三连
一键三连成功结束后,进行微调,不会调整就直接默认
推荐参数:
调整好后开始训练,点击开始SoVITS训练
训练完成,然后点击第二个GPT训练
训练完成,先点击刷新模型,下拉列表选择数字最大的模型
开启TTS推理
在推理UI界面,上传并填写参考信息
最后就可以在需要合成的文本中克隆声音了
可能遇到的问题(持续更新)
训练完GPT_weights和SoVITS_weights文件夹没有模型文件
首先查看报错,可能是文件太小不符合每张显卡的batch_size导致无法保存。先尝试把该参数改成1
再次训练,查看那俩个文件夹是否生成出了模型文件
打赏: 支付宝
本人所有文章均为技术分享,均用于防御为目的的记录,所有操作均在实验环境下进行,请勿用于其他用途,否则后果自负。 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
评论已关闭