MockingBird中文語(yǔ)音克隆工具是一個(gè)實(shí)時(shí)克隆中文聲音的AI工具,五秒克隆你的聲音,已整合訓(xùn)練好的模型,不需要特別高的配置和IT水平,基于SV2TTS的項(xiàng)目Real Time Voice Cloning已在Github上開源,號(hào)稱只需要你的5秒種音頻就能克隆你的聲音,Python開發(fā),提取、錄制、調(diào)試、訓(xùn)練一體化GUI操作。
軟件說(shuō)明
全程都是用AI模擬自己的語(yǔ)音生成音頻內(nèi)容,完全沒有人工參與,模擬的聲音也像模像樣的,感興趣的可以看看要不要自己也訓(xùn)練一個(gè)
據(jù)說(shuō),像柯南中那種變聲器的功能可以借此實(shí)現(xiàn),所以功能是蠻強(qiáng)大的
使用說(shuō)明
環(huán)境要求
python3.7及以上
理論支持Windows 7及以上 (建議 win8+,過(guò)老版本不保證兼容性)
親測(cè)win2012,win10完美運(yùn)行
如果在用 pip 方式安裝的時(shí)候出現(xiàn) ERROR: Could not find a version that satisfies the requirement torch==1.9.0+cu102 (from versions: 0.1.2, 0.1.2.post1, 0.1.2.post2) 這個(gè)錯(cuò)誤可能是 python 版本過(guò)低,3.9 可以安裝成功
安裝步驟
請(qǐng)勾選add python to path,否則需要手動(dòng)配置環(huán)境變量
請(qǐng)保持網(wǎng)絡(luò)暢通,若斷網(wǎng)報(bào)錯(cuò)請(qǐng)重新執(zhí)行安裝依賴.bat
使用教程
1.browse選擇一段3-15秒的語(yǔ)音,wav格式,最好單聲道,吐字清晰,沒有雜音,不宜過(guò)長(zhǎng)
親測(cè)網(wǎng)課直播錄屏,發(fā)語(yǔ)音,在安靜條件錄音等音質(zhì)較好,而在公共環(huán)境比如舞臺(tái),KTV等錄音音質(zhì)較差
不是所有語(yǔ)音都能夠完美克隆,親測(cè)在網(wǎng)課放老師的聲音以假亂真,但像麥小兜派蒙雷米等蘿莉音效果不理想
可以使用音頻編輯工具例如au進(jìn)行預(yù)處理降噪
如圖所示,頻譜規(guī)則的音頻克隆效果較好
2.在右上角輸入文本,僅支持中文,不要有阿拉伯?dāng)?shù)字,英文請(qǐng)使用諧音自行解決哈
3.選擇vocoder,推薦Griffin-Lim,點(diǎn)擊Synthesize and vocode試聽,之后點(diǎn)擊export導(dǎo)出音頻
提取碼:52pj