微信公眾號文章下載器(所有文章)是一款用于下載PC版微信公眾所有文章數(shù)據(jù)工具,設(shè)計(jì)得比較簡單,就是一步一步來,沒有使用多線程之類的,也沒有以前大佬的那么多功能。session參數(shù)有效時(shí)間為30分鐘,超過30分鐘就會超時(shí),需要重新獲取。
軟件環(huán)境:
VS2015+C#+.NET4.0+Fiddler+SQLITE
SQLITE是用來存放文章列表信息的:標(biāo)題、鏈接、狀態(tài)、文章類型等信息
本軟件提供源代碼,基本的注釋都有,需要的可以下載修改。
文章列表獲取的原理:當(dāng)一次文章列表獲取完成時(shí),會在數(shù)據(jù)表中記錄最后一次完整獲取的時(shí)間,當(dāng)下次再獲取同一公眾號時(shí),會從最新的開始獲取,然后一直找到上次完整獲取時(shí)間的前3天。比如上次完整獲取為2022-6-3日,這次會從最新的開始,一直獲取到2022-6-1日為止,冗余幾天是為了防止漏掉文章。
所以如果沒有一次完整獲取文章列表,那就會每次都從頭到尾的獲取一次。
使用說明:
1、文章下載后,放在軟件的根目錄下,以公眾號名命名的文件夾
2、顯示 ok 2022/6/20 16:37:57 的那條信息表示的是獲取文章列表成功,文章列表存放在SQLITE數(shù)據(jù)庫中,即:Database.db 文件中,可以用SQLite Expert Personal軟件打開,軟件有免費(fèi)版本。當(dāng)公眾號的文章比較多的時(shí)候,需要一定的時(shí)間才能下載完成。
3、出現(xiàn):success: 文章標(biāo)題(http://mp.weixin.qq.com/XXXXXXXX),獲取文章成功。 2022/6/20 16:38:41 才表示開始下載文章,出現(xiàn)這個(gè)時(shí),根目錄下才有公眾號命名的文件夾及文章發(fā)布時(shí)間和文章標(biāo)題命名的html文件。
文章存放形式
軟件功能:
獲取一個(gè)公眾號里的所有文章,然后保存成HTML文件。一篇文章一個(gè)HTML文件。
不實(shí)現(xiàn)功能:付費(fèi)文章隱藏了的不能下載,視頻不能下載,音頻沒有下載。圖片沒有下載,直接使用圖片鏈接地址。
下載時(shí)間:假設(shè)1000篇文章,沒有出錯(cuò)等情況下,下載完成所需時(shí)間:1000/10*20+1000*20=6.2小時(shí)。
獲取文章列表的參數(shù)每30分鐘過期一次,1000篇文章中間需要重新獲取一次參數(shù)。
覺得時(shí)間太久的,可以自行修改 獲取時(shí)間間隔,不建議過快,太頻繁有可能會觸發(fā)微信的防采集機(jī)制而限制訪問某公眾號。
由于采集太快還導(dǎo)致一段時(shí)間限制訪問某公眾號的,一般隔天會恢復(fù)。(使用20秒的間隔測試過采集多個(gè)公眾號,合計(jì)大幾千文章沒有出現(xiàn)過限制訪問的情況)
注意:雖然測試過采集多個(gè)公眾號,不過由于微信文章表示形式多樣,可能會出現(xiàn)采集出錯(cuò)或是采集后內(nèi)容與原文不一致的情況。
使用方法:
1、先關(guān)掉所有正在打開的公眾號文章。
2、點(diǎn)擊【①獲取參數(shù)】,然后再打開需要下載文章的公眾號,選擇打開公眾號里任意一文章。
3、文章加載完全后,【運(yùn)行日志】里會顯示獲取的各項(xiàng)參數(shù)。當(dāng)參數(shù)獲取完成后,會自動開始獲取文章。
4、請不要多開本軟件。
獲取一個(gè)公眾號里文章的流程:
先獲取必須的參數(shù)-->獲取公眾號的所有文章并入SQLITE數(shù)據(jù)庫里-->再從數(shù)據(jù)庫里取出文章,一篇一篇下載并做標(biāo)記。
獲取內(nèi)容:
只是把文章的內(nèi)容保存,沒有做處理。圖片使用的是網(wǎng)絡(luò)地址,沒有保存留言,可以自己修改添加上去。
會產(chǎn)生的問題及解決方法:
1、當(dāng)正在獲取參數(shù)的時(shí)候,瀏覽器可能會出現(xiàn):【未連接:有潛在的安全問題】,而不能瀏覽網(wǎng)頁。
解決方法:大概原因是Fiddler的證書問題,只需要等參數(shù)獲取完成或手動停止參數(shù)獲取即可恢復(fù)。
2、當(dāng)沒有關(guān)閉現(xiàn)有打開的公眾號文章時(shí),此時(shí)點(diǎn)擊【獲取參數(shù)】有可能會獲取到當(dāng)前瀏覽文章的參數(shù),當(dāng)你要獲取另外一個(gè)公眾號的數(shù)據(jù)時(shí),可能會出現(xiàn)參數(shù)錯(cuò)誤的情況。
解決方法:先關(guān)掉所有正在瀏覽的公眾號文章,然后再點(diǎn)擊【①獲取參數(shù)】,再打開需要下載的公眾號的任意一文章。
3、出現(xiàn)提示error類的信息問題。
解決方法:一般按照方法重試一/幾次就可以。如果不行,可關(guān)掉軟件重新打開。
4、在獲取參數(shù)時(shí),軟件意外關(guān)閉或是主動關(guān)閉,再訪問網(wǎng)頁時(shí)會提示:【代{過}{濾}理服務(wù)器拒絕連接】。
解決方法:這是由于在獲取參數(shù)時(shí),軟件會修改系統(tǒng)的代{過}{濾}理,如果沒有停止,該代{過}{濾}理會一直存在。只需要重開軟件,點(diǎn)擊【①獲取參數(shù)】,然后再點(diǎn)擊【①停止獲取】即可。
5、正在獲取文章時(shí),軟件意外或主動關(guān)閉后,重新打開后,以前文章是否會重復(fù)獲取或下載。
答:不會重復(fù),在獲取文章列表時(shí)關(guān)閉,下次重開后,還是會重第一篇文章開始獲取,找到重復(fù)的會自動跳過。
當(dāng)在下載文章時(shí)關(guān)閉,下次重開后,會從下一篇未下載的文章開始下載。
6、由于Fiddler證書安裝問題,可能會出現(xiàn)其它未知錯(cuò)誤,請使用搜索引擎查找相關(guān)解決方法,或提供可復(fù)現(xiàn)的方案進(jìn)行回帖。
7、有時(shí)候會出現(xiàn)打開文章后,參數(shù)沒有獲取完全,一直不進(jìn)行采集。
解決方法:關(guān)掉文章后再打開一次一篇文章即可,盡量不使用刷新,有些參數(shù)只有第一次打開才有。
8、軟件被WIN10的安全中心刪除了怎么辦?
解決方法:通過安全中心,添加到排除列表里面。
更新內(nèi)容:
1、保存留言
2、證書安裝等BUG修改
3、提示優(yōu)化