博客園博文提取器通過分析博客園博客源碼來生成一些必要的數(shù)據(jù),可能在以后使用當中出現(xiàn)爬取不了的情況,可能是博客園的源碼結構修改了。
由于生成PDF的時候需要依賴字庫,所以在打包程序的時候把一些必要的字庫已經放到程序中去了?赡茉谏梢恍㏄DF文件的時候出現(xiàn)亂碼問題,那是因為里面缺少需要的字庫,fonts文件夾是生成pdf文件依賴的字體庫,如果生成的pdf文件是亂碼,說明缺少相關的字體。
程序功能:
1、支持輸入博客園博客用戶名針對性下載
2、支持選擇保存下載的文件
保存的結構目錄為:
選擇的保存路徑\博客園用戶名\pdf 生成的PDF文件保存路徑
選擇的保存路徑\博客園用戶名\doc 生成的DOC文件保存路徑
選擇的保存路徑\博客園用戶名\txt 生成的TXT文件保存路徑
3、支持獲取用戶博客信息
4、支持顯示用戶所有的帖子列表
5、可以自己選擇需要下載的帖子,有全選、反選、重置按鈕
6、支持下載的文件保存為 pdf、doc、txt三種格式
7、生成的pdf、doc文件支持圖片
8、支持進度顯示