Umi-OCR文字識別工具軟件是一款免費開源可批量的離線OCR軟件,解壓即用,離線運行,無需網(wǎng)絡(luò)。采用 PaddleOCR-json C++ 識別引擎。只要電腦性能足夠,通常比在線OCR服務(wù)更快。默認使用PPOCR-v3模型庫。除了能準(zhǔn)確辨認常規(guī)文字,對手寫、方向不正、雜亂背景等情景也有不錯的識別率。可設(shè)置忽略區(qū)域排除水印、設(shè)置文塊后處理合并排版段落,得到規(guī)整的文本。
軟件說明
全新升級:版本重構(gòu)了絕大部分代碼,提供煥然一新的界面和更強大的功能。
免費:本項目所有代碼開源,完全免費。
方便:解壓即用,離線運行,無需網(wǎng)絡(luò)。
高效:自帶高效率離線OCR引擎。只要電腦性能足夠,可以比在線OCR服務(wù)更快。
靈活:支持定制界面,支持命令行、HTTP接口等多種調(diào)用方式。
軟件特色
標(biāo)簽頁
由一系列靈活好用的標(biāo)簽頁組成。您可按照自己的喜好,打開需要的標(biāo)簽頁,并鎖定標(biāo)簽欄。
截圖OCR
截圖OCR:打開這一頁后,就可以用快捷鍵喚起截圖,識別圖中的文字。
左側(cè)的圖片預(yù)覽欄,可直接用鼠標(biāo)劃選復(fù)制。
右側(cè)的識別記錄欄,可以編輯文字,允許劃選多個記錄復(fù)制。
也支持在別處復(fù)制圖片,粘貼到Umi-OCR進行識別。
批量OCR
批量OCR:這一頁支持批量導(dǎo)入本地圖片并識別。
識別內(nèi)容可以保存為 txt / jsonl / md / csv(Excel) 等多種格式。
支持文本后處理技術(shù),能識別屬于同一自然段的文字,并將其合并。還支持代碼段、豎排文本等多種處理方案。
沒有數(shù)量上限,可一次性導(dǎo)入幾百張圖片進行任務(wù)。
支持任務(wù)完成后自動關(guān)機/待機。
忽略區(qū)域:一種特殊功能,適用于排除圖片中的不想要的文字。
在批量識別頁的右欄設(shè)置中可進入忽略區(qū)域編輯器。
如上方樣例,圖片頂部和右下角存在多個水印 / LOGO。如果批量識別這類圖片,水印會對識別結(jié)果造成干擾。
按住右鍵,繪制多個矩形框。這些區(qū)域內(nèi)的文字將在任務(wù)中被忽略。
請盡量將矩形框畫得大一些,完全包裹住水印所有可能出現(xiàn)的位置。
二維碼
二維碼:這里可以掃碼。
支持多種格式的二維碼、條形碼。
支持一圖多碼。
可截圖/粘貼/拖入本地圖片。
全局設(shè)置
全局設(shè)置:在這里可以調(diào)整軟件的全局參數(shù)。
支持更改界面語言。(翻譯校對工作將在第一個正式版發(fā)布后進行)
支持切換界面主題。Umi-OCR擁有多個亮/暗主題。
可以調(diào)整界面文字大小、文字字體。
切換OCR插件。
輔助功能說明:
多國語言界面:軟件界面支持多國語言。目前預(yù)覽階段為AI翻譯生成,可能詞義和排版不好,或者有錯漏的情況。正式發(fā)布時會進行人工校對。
渲染器:軟件界面默認支持顯卡加速渲染。但是如果在你的機器上出現(xiàn)截屏閃爍、UI錯位的情況,請調(diào)整全局設(shè)置→界面和外觀→渲染器。
文本塊后處理(段落合并)可以整理OCR結(jié)果的排版和順序,使文本更適合閱讀和使用。預(yù)設(shè)方案如下:
單行:合并同一行的文字,適合絕大部分情景。
多行-自然段:智能識別、合并屬于同一段落的文字,適合絕大部分情景。
多行-代碼段:盡可能還原原始排版的縮進與空格。適合識別代碼片段,或需要保留空格的場景。
豎排:適合豎排排版。需要與同樣支持豎排識別的模型庫配合使用。
簡單上手
準(zhǔn)備
下載壓縮包并解壓全部文件即可。
截圖識別
點擊截圖按鈕或自定義快捷鍵,喚起截圖識別。
粘貼圖片到軟件
在任何地方(如文件管理器,網(wǎng)頁,微信)復(fù)制圖片,軟件上點擊粘貼按鈕,自動識別。
批量識別本地圖片文件
將圖片或文件夾拖進軟件,批量轉(zhuǎn)換文字。也可以點擊按鈕打開瀏覽窗口導(dǎo)入。
識別結(jié)果將保存到本地?蛇x生成純文本txt文件、帶鏈接Markdown文件、原始信息jsonl文件等不同格式?膳渲萌蝿(wù)完成后執(zhí)行關(guān)機/待機。
文本塊后處理(排版優(yōu)化)
OCR識別出的文本是按“塊”劃分的,通常一行文字分為一塊,有時還會將一行誤劃分為多塊,這給閱讀帶來了不便。文本塊后處理就是對文本塊進行再加工的過程,合并同一行或同一段落內(nèi)的文字,按正確的順序排序。
下圖表示不同排版應(yīng)該選用何種處理方案:
所有方案一覽:
橫排-優(yōu)化單行
將誤劃分為多塊的同一行文字合并到一行。
橫排-合并多行-左對齊
將多個左對齊的行視為同一段落,合并文字。左側(cè)未對齊或行距過大的行視為下一段落。
橫排-合并多行-自然段
將多個左對齊的行視為同一段落,且第一行的開頭允許多空出兩個全角空格的寬度。
橫排-合并多行-模糊匹配
只要垂直投影有重疊,行高一致,距離較近的文本塊,視為同一段落。
豎排-從左到右-單行 / 豎排-從右至左-單行
優(yōu)化豎排識別,合并同一行文字,按從左到右或從右到左的順序輸出每一行。 注意,必須搭配支持豎排識別的模型庫(識別語言)一起使用。
可視化預(yù)覽:
可以在忽略區(qū)域編輯器內(nèi)預(yù)覽文本塊后處理的效果。編輯器中以虛線框標(biāo)出識別到、經(jīng)過后處理的文字塊。
這里僅僅是借用了編輯器來展示后處理的效果,實際運行任務(wù)時 忽略區(qū)域機制 早于 后處理機制 執(zhí)行,不受后處理的影響。
忽略區(qū)域功能
忽略區(qū)域是本軟件特色功能,可用于排除圖片中水印的干擾,讓識別結(jié)果只留下所需的文本。
更新日志
新增:記憶窗口位置。
新增:批量識圖頁增加圖片預(yù)覽窗口,單擊圖片條目打開。
新增:檢查軟件是否有權(quán)限讀寫配置文件。
新增:報錯彈窗提供一鍵復(fù)制及打開issues的功能。
新增:全局設(shè)置頁添加左側(cè)目錄欄。
新增:插件的多國語言UI機制。
優(yōu)化:截圖預(yù)覽面板中,文本框的位置更準(zhǔn)確。
優(yōu)化:調(diào)整部分UI布置。
修復(fù):掃碼模塊添加導(dǎo)入異常檢查。
修復(fù):補充掃碼頁的拖入圖片功能。
修復(fù):輸出到單獨文件txt時,文件名去除原后綴。
修復(fù):一些小Bug。