提取文本,包括Unicode字符。
和Jakarta Lucene等文本搜索引擎的整合過(guò)程十分簡(jiǎn)單。
加密/解密PDF文檔。
從PDF和XFDF格式中導(dǎo)入或?qū)С霰韱螖?shù)據(jù)。
向已有PDF文檔中追加內(nèi)容。
將一個(gè)PDF文檔切分為多個(gè)文檔。
覆蓋PDF文檔。
使用PDFBox處理PDF文檔
PDF全稱Portable Document Format,是Adobe公司開(kāi)發(fā)的電子文件格式。這種文件格式與操作系統(tǒng)平臺(tái)無(wú)關(guān),可以在Windows、Unix或Mac OS等操作系統(tǒng)上通用。
PDF文件格式將文字、字型、格式、顏色及獨(dú)立于設(shè)備和分辨率的圖形圖像等封裝在一個(gè)文件中。如果要抽取其中的文本信息,需要根據(jù)它的文件格式來(lái)進(jìn)行解析。幸好目前已經(jīng)有不少工具能幫助我們做這些事情。
使用PDFBox解析PDF內(nèi)容
在剛剛創(chuàng)建的Eclipse工程中,創(chuàng)建一個(gè)ch7.pdfbox包,并創(chuàng)建一個(gè)PdfboxTest類。該類包含一個(gè)getText方法,用于從一個(gè)PDF中獲取文本信息,其代碼如下。
import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileWriter;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;
public class PdfParser {
/**
* @param args
*/
// TODO 自動(dòng)生成方法存根
public static void main(String[] args) throws Exception{
FileInputStream fis = new FileInputStream("F:\\task\\lerman-atem2001.pdf");
BufferedWriter writer = new BufferedWriter(new FileWriter("F:\\task\\pdf_change.txt"));
PDFParser p = new PDFParser(fis);
p.parse();
PDFTextStripper ts = new PDFTextStripper();
String s = ts.getText(p.getPDDocument());
writer.write(s);
System.out.println(s);
fis.close();
writer.close();
}
}