Whisper本地語(yǔ)音轉(zhuǎn)文字工具是一款本地的語(yǔ)音轉(zhuǎn)文字的工具,能夠輔助個(gè)人用戶通過(guò)模型的方式來(lái)完成本地的語(yǔ)音對(duì)文字上面的轉(zhuǎn)換,你需要導(dǎo)入模型進(jìn)行識(shí)別之后才能夠進(jìn)行轉(zhuǎn)換,完全本地化的運(yùn)行,無(wú)需網(wǎng)絡(luò)就能夠使用,快來(lái)西西下載這款Whisper本地語(yǔ)音轉(zhuǎn)文字工具!
Whisper本地語(yǔ)音轉(zhuǎn)文字工具
這個(gè)項(xiàng)目是whisper.cpp實(shí)現(xiàn)的一個(gè)Windows移植。
它又是OpenAI的Whisper自動(dòng)語(yǔ)音識(shí)別(ASR)模型的C++移植。
軟件特點(diǎn)
基于DirectCompute的供應(yīng)商無(wú)關(guān)的GPGPU;該技術(shù)的另一個(gè)名稱是 "Direct3D 11的計(jì)算著色器"
純粹的C++實(shí)現(xiàn),除了基本的操作系統(tǒng)組件,沒(méi)有運(yùn)行時(shí)的依賴性
比OpenAI的實(shí)現(xiàn)快得多。
在我的臺(tái)式電腦上,使用GeForce 1080Ti GPU,中等型號(hào),3:24分鐘的演講用PyTorch和CUDA抄寫(xiě)需要45秒,但用我的實(shí)現(xiàn)和DirectCompute只需要19秒。
有趣的是:這相當(dāng)于9.63GB的運(yùn)行時(shí)依賴,而Whisper.dll只有431KB。
混合F16/F32精度。Windows要求從D3D 10.0版本開(kāi)始支持R16_FLOAT緩沖區(qū)。
內(nèi)置性能分析器,可測(cè)量單個(gè)計(jì)算著色器的執(zhí)行時(shí)間
低內(nèi)存使用率
用于音頻處理的媒體基金會(huì),支持大多數(shù)音頻和視頻格式(Ogg Vorbis是個(gè)明顯的例外),以及在Windows上工作的大多數(shù)音頻捕獲設(shè)備(除了一些專業(yè)的設(shè)備,它們只實(shí)現(xiàn)ASIO API)。
語(yǔ)音活動(dòng)檢測(cè)用于音頻捕獲。
該實(shí)現(xiàn)基于Mohammad Moattar和Mahdi Homayoonpoor在2009年發(fā)表的文章《一種簡(jiǎn)單而有效的實(shí)時(shí)語(yǔ)音活動(dòng)檢測(cè)算法》。
易于使用COM風(fēng)格的API,nuget上有成語(yǔ)的C#包裝器
預(yù)建的二進(jìn)制文件可用