夜鲁夜鲁夜鲁视频在线观看,91啪在线观看国产在线

軟件介紹

提取文本，包括Unicode字符。

和Jakarta Lucene等文本搜索引擎的整合過程十分簡單。

加密/解密PDF文檔。

從PDF和XFDF格式中導入或?qū)С霰韱螖?shù)據(jù)。

向已有PDF文檔中追加內(nèi)容。 

將一個PDF文檔切分為多個文檔。

覆蓋PDF文檔。

使用PDFBox處理PDF文檔

PDF全稱Portable Document Format，是Adobe公司開發(fā)的電子文件格式。這種文件格式與操作系統(tǒng)平臺無關，可以在Windows、Unix或Mac OS等操作系統(tǒng)上通用。

PDF文件格式將文字、字型、格式、顏色及獨立于設備和分辨率的圖形圖像等封裝在一個文件中。如果要抽取其中的文本信息，需要根據(jù)它的文件格式來進行解析。幸好目前已經(jīng)有不少工具能幫助我們做這些事情。

使用PDFBox解析PDF內(nèi)容

在剛剛創(chuàng)建的Eclipse工程中，創(chuàng)建一個ch7.pdfbox包，并創(chuàng)建一個PdfboxTest類。該類包含一個getText方法，用于從一個PDF中獲取文本信息，其代碼如下。

import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileWriter;

import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;

public class PdfParser {

   /**
   * @param args
   */
   // TODO 自動生成方法存根

       public   static   void   main(String[]   args)   throws   Exception{
            FileInputStream   fis   =   new   FileInputStream("F:\\task\\lerman-atem2001.pdf");
            BufferedWriter writer = new BufferedWriter(new FileWriter("F:\\task\\pdf_change.txt"));
            PDFParser   p   =   new   PDFParser(fis);
            p.parse();
            PDFTextStripper   ts   =   new   PDFTextStripper();
            String   s   =   ts.getText(p.getPDDocument());
            writer.write(s);
            System.out.println(s);
            fis.close();
            writer.close();

   }
}