Whisper本地語音轉(zhuǎn)文字工具是一款本地的語音轉(zhuǎn)文字的工具,能夠輔助個人用戶通過模型的方式來完成本地的語音對文字上面的轉(zhuǎn)換,你需要導入模型進行識別之后才能夠進行轉(zhuǎn)換,完全本地化的運行,無需網(wǎng)絡就能夠使用,快來西西下載這款Whisper本地語音轉(zhuǎn)文字工具!
Whisper本地語音轉(zhuǎn)文字工具
這個項目是whisper.cpp實現(xiàn)的一個Windows移植。
它又是OpenAI的Whisper自動語音識別(ASR)模型的C++移植。
軟件特點
基于DirectCompute的供應商無關的GPGPU;該技術的另一個名稱是 "Direct3D 11的計算著色器"
純粹的C++實現(xiàn),除了基本的操作系統(tǒng)組件,沒有運行時的依賴性
比OpenAI的實現(xiàn)快得多。
在我的臺式電腦上,使用GeForce 1080Ti GPU,中等型號,3:24分鐘的演講用PyTorch和CUDA抄寫需要45秒,但用我的實現(xiàn)和DirectCompute只需要19秒。
有趣的是:這相當于9.63GB的運行時依賴,而Whisper.dll只有431KB。
混合F16/F32精度。Windows要求從D3D 10.0版本開始支持R16_FLOAT緩沖區(qū)。
內(nèi)置性能分析器,可測量單個計算著色器的執(zhí)行時間
低內(nèi)存使用率
用于音頻處理的媒體基金會,支持大多數(shù)音頻和視頻格式(Ogg Vorbis是個明顯的例外),以及在Windows上工作的大多數(shù)音頻捕獲設備(除了一些專業(yè)的設備,它們只實現(xiàn)ASIO API)。
語音活動檢測用于音頻捕獲。
該實現(xiàn)基于Mohammad Moattar和Mahdi Homayoonpoor在2009年發(fā)表的文章《一種簡單而有效的實時語音活動檢測算法》。
易于使用COM風格的API,nuget上有成語的C#包裝器
預建的二進制文件可用