西西軟件園多重安全檢測下載網(wǎng)站、值得信賴的軟件下載站!
西西首頁 電腦軟件 安卓軟件 電腦游戲 安卓游戲 排行榜 專題合集

PDFBox jar包文件

  • PDFBox jar包文件
  • 軟件大小:6.6M
  • 更新時間:2014-03-21 15:56
  • 軟件語言:中文
  • 軟件廠商:
  • 軟件類別:國產(chǎn)軟件 / 免費軟件 / 源碼相關(guān)
  • 軟件等級:4級
  • 應(yīng)用平臺:WinAll, Win7
  • 官方網(wǎng)站:暫無
  • 應(yīng)用備案:
好評:50%
壞評:50%

本類精品

軟件介紹

提取文本,包括Unicode字符。 

和Jakarta Lucene等文本搜索引擎的整合過程十分簡單。

加密/解密PDF文檔。 

從PDF和XFDF格式中導(dǎo)入或?qū)С霰韱螖?shù)據(jù)。 

向已有PDF文檔中追加內(nèi)容。 

將一個PDF文檔切分為多個文檔。

覆蓋PDF文檔。

使用PDFBox處理PDF文檔

PDF全稱Portable Document Format,是Adobe公司開發(fā)的電子文件格式。這種文件格式與操作系統(tǒng)平臺無關(guān),可以在Windows、Unix或Mac OS等操作系統(tǒng)上通用。

PDF文件格式將文字、字型、格式、顏色及獨立于設(shè)備和分辨率的圖形圖像等封裝在一個文件中。如果要抽取其中的文本信息,需要根據(jù)它的文件格式來進行解析。幸好目前已經(jīng)有不少工具能幫助我們做這些事情。

使用PDFBox解析PDF內(nèi)容

在剛剛創(chuàng)建的Eclipse工程中,創(chuàng)建一個ch7.pdfbox包,并創(chuàng)建一個PdfboxTest類。該類包含一個getText方法,用于從一個PDF中獲取文本信息,其代碼如下。

import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileWriter;

import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;


public class PdfParser {

   /**
   * @param args
   */
   // TODO 自動生成方法存根

       public   static   void   main(String[]   args)   throws   Exception{ 
            FileInputStream   fis   =   new   FileInputStream("F:\\task\\lerman-atem2001.pdf"); 
            BufferedWriter writer = new BufferedWriter(new FileWriter("F:\\task\\pdf_change.txt"));
            PDFParser   p   =   new   PDFParser(fis); 
            p.parse();         
            PDFTextStripper   ts   =   new   PDFTextStripper();         
            String   s   =   ts.getText(p.getPDDocument()); 
            writer.write(s);
            System.out.println(s); 
            fis.close(); 
            writer.close();
          
   }
}

軟件標(biāo)簽: jar

軟件截圖

PDFBox jar包文件

其他版本下載

最新評論查看所有(1)條評論 >

第 1 樓 1 網(wǎng)友 客人 發(fā)表于: 2014/3/21 17:50:16
和Jakarta Lucene等文本搜索引擎的整合過程十分簡單。

支持( 0 ) 蓋樓(回復(fù))

發(fā)表評論

昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
查看所有(1)條評論 > 字數(shù): 0/500

TOP
軟件下載