GPT-SoVITS语音克隆AI使用教程

介绍

一个强大的少镜头语音克隆AI，1分钟的语音数据也可以用来训练一个好的TTS模型。
项目地址：https://github.com/RVC-Boss/GPT-SoVITS

步骤

下载并解压Windows预打包文件
下载地址：https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true

运行web-ui
2024-02-08T08:28:13.png
之后会自动转到web控制台
2024-02-08T08:32:05.png
因为我的是视频素材所以第一步要开启人声分离模块
2024-02-08T08:38:37.png
等待一会，会自动进入模块控制台
填写输入待处理音频文件夹路径，模型选HP2，导出文件格式选WAV，其他全部默认即可。
2024-02-08T08:39:43.png
2024-02-08T08:43:56.png
等待一会，等他完成会在GPT-SoVITS-beta\output\uvr5_opt目录下出现俩个文件，一个是背景声文件（instrument）一个是人声文件（vocal）
2024-02-08T08:48:11.png
接下来是去除混响和延迟
2024-02-08T08:54:04.png
2024-02-08T09:04:27.png
2024-02-08T09:05:58.png
去混响选模型
2024-02-08T08:55:49.png
去延时选模型
2024-02-08T08:56:32.png
在处理完成后得到的“vocal_vocal_vocal_”开头的文件就是我们需要的人声文件，给这个文件单独放到一个新的空文件夹，开始文件切割，最后得到的切割文件在GPT-SoVITS-beta\output\slicer_opt目录
2024-02-08T09:10:03.png
批量离线ASR，导入分割文件目录
2024-02-08T09:15:11.png
打标注，标注文件的路径在GPT-SoVITS-beta\output\asr_opt目录，然后开启ui
2024-02-08T09:17:36.png
等待一会就进入标记管理webUI，这一步最好一点一点调试，确保没有错别字
2024-02-08T09:25:11.png
调试完成后点击save保存（先Submit Text）
2024-02-08T11:22:01.png
2024-02-08T09:32:31.png
下一步训练数据格式化，为模型起名，添加文本标注文件地址，训练集音频文件目录
2024-02-08T09:36:15.png
修改好后点击一键三连
2024-02-08T09:37:31.png
一键三连成功结束后，进行微调，不会调整就直接默认
2024-02-08T09:40:03.png
推荐参数：
2024-02-08T09:41:49.png
调整好后开始训练，点击开始SoVITS训练
2024-02-08T09:44:09.png
2024-02-08T09:44:38.png
训练完成，然后点击第二个GPT训练
2024-02-08T09:46:40.png
训练完成，先点击刷新模型，下拉列表选择数字最大的模型
2024-02-08T09:48:06.png
开启TTS推理
2024-02-08T10:36:41.png
在推理UI界面，上传并填写参考信息
2024-02-08T11:07:26.png
最后就可以在需要合成的文本中克隆声音了
2024-02-08T12:25:50.png

可能遇到的问题（持续更新）

训练完GPT_weights和SoVITS_weights文件夹没有模型文件

首先查看报错，可能是文件太小不符合每张显卡的batch_size导致无法保存。先尝试把该参数改成1
再次训练，查看那俩个文件夹是否生成出了模型文件

文章目录

本人所有文章均为技术分享，均用于防御为目的的记录，所有操作均在实验环境下进行，请勿用于其他用途，否则后果自负。本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

GPT-SoVITS语音克隆AI使用教程

介绍

步骤

可能遇到的问题（持续更新）

评论已关闭

热门文章

最新文章

最近回复

分类

标签

归档

其它