我之前手里有 3 小时自己的中文普通话读稿录音。
当时冒出来一个念头:能不能在本地克隆一个自己的声音?
不是为了炫技。
而是做内容的人都懂,录音很烦。
一段文案要重录好几遍,嘴瓢、忘词、情绪不对,都得重来。
如果以后我输入一段文字,Mac mini 能用我的声音先生成一版音频,那很多内容就能先跑起来。
我让 AI 先帮我选工具。
它对比了 5 个方向:GPT-SoVITS、ChatTTS、CosyVoice、Fish Speech、Bert-VITS2。
最后建议我先用 GPT-SoVITS。
原因很简单:中文支持强,能用短音频做零样本,也能用我这 3 小时素材继续微调。
我的设备是 M4 Mac mini,所以重点不是买显卡,而是把本地环境搭起来。
第一步装基础工具:Xcode 命令行工具、Homebrew、FFmpeg。
FFmpeg 是处理音频必备的,后面切分、转格式都绕不开。
第二步装 Conda,单独建 Python 环境,避免把系统环境弄乱。
第三步拉 GPT-SoVITS 代码,装 PyTorch、torchaudio 这些依赖。
Mac 上还要注意 MPS 加速,所以运行前加了:
PYTORCH_ENABLE_MPS_FALLBACK=1
真正麻烦的是后面。
3 小时录音不是直接丢进去就万事大吉。
要先切成 5-10 秒的小段,再做 ASR 打标,识别文字还要人工校对。
声音像不像,很大程度取决于这些素材干不干净、文字准不准。
训练也分两层:SoVITS 学音色,GPT 学语调、停顿和口吻。
这里我不会说它已经稳定商用了。
现在更准确的说法是:已经能部署、能跑,后面还要继续调参和验证自然度。
但这件事让我很确定一点:
AI 对内容创业者的价值,不只是帮你写稿。
它还能把你的声音、文档、录音、流程,慢慢变成可复用资产。
这个岗位,我会叫它:AI 声音助理。