從中國文獻(xiàn)網(wǎng)、期刊網(wǎng)、中國知網(wǎng)等下載的資料大多是caj、kdh等格式,只能使用cajviewer查看,不能被修改編輯。網(wǎng)上提供了許多處理這種情況的軟件,但是大多數(shù)處理效率極低。本文將介紹給大家一個簡便、快捷將caj、kdh、pdf等文件轉(zhuǎn)換為word的方法。
工具/原料
CAJViewer 7完整版 (帶OCR組件)
PDF虛擬打印機(jī)(本文以PDF factory 為例)
OCR識別軟件 (本文以ABBYY finereader 9為例)
很多科技文獻(xiàn),論文,都是用 CAJViewer7.0 稱為“電子閱讀器”的一個程序來閱讀的。
但CAJ 文件像 PDF 文件一樣,是些類似圖片格式的文本。這些圖片格式的文本轉(zhuǎn)換成可編輯的真正文本是有點(diǎn)麻煩的。僅僅用“拷貝,粘貼”的辦法,是不行的。需要進(jìn)行一個格式的轉(zhuǎn)換。
需要安裝一個軟件:Office
用 CajViewer 打開所要轉(zhuǎn)的文件,工具欄里選“文件”-“打印”
一般機(jī)器里安裝了Office 之后,會隨著安裝一個虛擬打印機(jī) Microsoft Office Document Imaging,就選擇打印到這個虛擬打印機(jī)上。
先選打印“全部”,然后點(diǎn)“確定”。最后選擇文件保存路徑,但這時(shí),保存的這個文件是 MDI 格式的,打印完后 Microsoft Office Document Imaging 會自動打開你剛才保存的文件。然后在工具欄里選擇“工具”-“將文本發(fā)送到Word” 這樣就可以把 CAJ 格式的文件轉(zhuǎn)變稱為 WORD 格式了。
步驟/方法
1、用CAJviewer 7打開你要轉(zhuǎn)換的文件,如下圖所示如果我們需要第一段的內(nèi)容,那么我們需要點(diǎn)擊CAJViewer 7自帶的OCR功能鍵,如下圖圖中紅色方框框出的按鈕就是OCR識別按鈕(如果你使用的是精簡版的CAJviewer,那么這個按鈕是灰色的,不可用的),我們點(diǎn)擊一下鼠標(biāo)就會變成十字形,然后我們在當(dāng)前頁面上框選出需要的內(nèi)容,稍等一會兒就會彈出一個識別文字的方框,我們可以選擇復(fù)制到剪貼板或者發(fā)送到word,然后關(guān)閉這個識別框就可以了。(OCR識別是有錯誤率的,所以識別后我們需要人工校對)如果我們只需要摘錄一小部分內(nèi)容的話,那么我們用這個方法就可以了,如果想整篇文章都轉(zhuǎn)換成可以編輯的word格式的話,那么我們繼續(xù)往下看。
2、這一步我們的思路是將CAJ、KDH、NH文件轉(zhuǎn)換成PDF,然后再將PDF轉(zhuǎn)換成WORD格式的方法來轉(zhuǎn)換。那么我們需要現(xiàn)將這樣的文件轉(zhuǎn)成PDF格式。推薦使用PDF虛擬打印機(jī),本文以PDF factory 為例。(PDF Craetor或者foxit 系列軟件的PDF虛擬打印機(jī)可能和CAJviewer 有沖突,轉(zhuǎn)換出來的PDF只有上半頁面,下半個頁面是空白的,所以我這里不推薦大家使用)CAJviewer 軟件菜單 文件----打印------彈出打印界面如上設(shè)置 ,如果你用的是其他的PDF虛擬打印機(jī),選擇相應(yīng)的打印機(jī)即可,其他基本上默認(rèn)就可以,點(diǎn)擊確定,等待轉(zhuǎn)換,然后保存為PDF文件。
3、接下來我們的任務(wù)就是把轉(zhuǎn)換好的PDF文件轉(zhuǎn)成WORD,那么這里我們使用ABBYY finereader這款強(qiáng)大的PDF轉(zhuǎn)換軟件來進(jìn)行OCR轉(zhuǎn)換。(因?yàn)閺腃AJviewer轉(zhuǎn)換過來的PDF文件是圖片形式的PDF文件,所以用其他的PDF轉(zhuǎn)word軟件是無能為力的,必須要帶有OCR功能的轉(zhuǎn)換軟件才可以,這點(diǎn)請大家務(wù)必記住。)我們運(yùn)行ABBYY finereader軟件,設(shè)置好識別文件的語言種類(可以是多種的)如果不想軟件打開是顯示該頁面,可以勾選“不在顯示此窗口”選項(xiàng),打開剛才保存的PDF文件,文件自動進(jìn)行OCR識別。
4、識別過程中如果有無法識別部分或者錯誤,軟件有警告提示的。識別完畢后,軟件菜單文件------另存為-------Microsoft word文檔 保存即可。
5、保存以后的WORD文件我們用軟件打開看一下,轉(zhuǎn)換效果如下圖所示:轉(zhuǎn)換的效果基本上還是可以的,版面的還原能力也不錯,剩下的事情就是自己要和原文校核一下,大功告成~~~。
注意事項(xiàng)
文件最后的轉(zhuǎn)換效果和你所用的PDF虛擬打印機(jī)的轉(zhuǎn)換效果有直接的關(guān)系,轉(zhuǎn)換成的PDF文件清晰度越高,最后OCR識別的準(zhǔn)確率越高。
如果你的文件中間包含有大量的數(shù)學(xué)公式、物理公式、三角函數(shù)、各種計(jì)算式目前還不能夠被識別,所以這些都需要我們自己用公式編輯器手動輸入,這個也是目前最遺憾的事情。