CapsWriter離線識別語音輸入工具是一款綠色的語音輸入類型的工具,能夠輔助個人在PC上面完成語音輸入的內(nèi)容,并且支持離線識別的功能,在你下載好相關(guān)模型的請款之下能夠輕松的進(jìn)行使用,滿足個人用戶對于語音輸入的需求,快來西西下載CapsWriter離線識別語音輸入工具!
CapsWriter離線識別語音輸入工具
這是 CapsWriter 簡陋的離線版,一個 PC 端的語音輸入工具。
運(yùn)行后,只要按下鍵盤上的 大寫鎖定鍵,就會開始錄音,當(dāng)你松開 大寫鎖定鍵 時(shí),就會識別你的錄音,并將識別結(jié)果立刻輸入。
安裝說明
安裝 Python 后,在 cmd 窗口進(jìn)入本文件夾,運(yùn)行 pip install -r requirements.txt 安裝依賴
sherpa-onnx-bin 文件夾中已經(jīng)放置了在 Win10-64 端預(yù)先編譯的 sherpa-onnx 二進(jìn)制。
其它系統(tǒng)暫時(shí)需要按照 sherpa-onnx — sherpa 1.2 documentation 編譯后,放入 sherpa-onnx-bin 文件夾。
運(yùn)行和使用
運(yùn)行 01sherpa-onnx-server.py 腳本,會載入 Paraformer 模型識別模型(這會占用1GB的內(nèi)存,載入時(shí)長約十幾秒)
運(yùn)行 02-CapsWriter-client.py 腳本,它會打開系統(tǒng)默認(rèn)麥克風(fēng),開始監(jiān)聽按鍵
按住 CapsLock 鍵,錄音開始,松開 CapsLock 鍵,錄音結(jié)束,識別結(jié)果立馬被輸入(錄音時(shí)長短于0.3秒不算)
注意事項(xiàng)
目前使用的模型是 Paraformer 非實(shí)時(shí)模型,即錄完再轉(zhuǎn),因此錄音時(shí)間越長,上屏延遲越大。
主流性能的 Windows 筆記本,RTF 大約 0.06,即大約每 10s 錄音需 0.6s 轉(zhuǎn)錄時(shí)長。
本地模型對算力要求非常低,基本無需擔(dān)心性能問題
暫不支持標(biāo)點(diǎn)符號,暫不支持逆標(biāo)準(zhǔn)化(如把中文數(shù)字轉(zhuǎn)阿拉伯?dāng)?shù)字)
為方便用戶檢查錄音質(zhì)量、識別效果,腳本默認(rèn)開啟了保存錄音,所有都被保存在了 audios 文件夾