現(xiàn)在市面上充斥著一些收費(fèi)的網(wǎng)頁采集器,這樣一款綠色免費(fèi)的網(wǎng)頁采集器不管他功能怎么樣,是免費(fèi)的就很難得了!
本軟件通過互聯(lián)網(wǎng),采集網(wǎng)頁信息。有兩大特色功能:
1,可以采集js之后的動態(tài)信息。
2,可以設(shè)定采集的正則表達(dá)式。
另外,本軟件內(nèi)置多種采集方案,分別對應(yīng)靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁。
官網(wǎng)的圖片(人臉)搜索引擎的數(shù)據(jù)都是用這個(gè)軟件采集,然后才做索引的。
使用步驟:
1,輸入網(wǎng)址,正常瀏覽網(wǎng)頁到達(dá)采集目標(biāo)后,點(diǎn)擊工具欄上的“查看js后源碼”圖標(biāo),則顯示執(zhí)行js后的網(wǎng)頁內(nèi)容。
如果沒有看到相關(guān)內(nèi)容,可以等待片刻再次點(diǎn)擊,以保證js代碼執(zhí)行完畢。通過瀏覽完整的網(wǎng)頁源碼,我們可以確定
使用方案1還是方案2。如果更改網(wǎng)址的頁碼就可以導(dǎo)航到下一頁,則使用方案1;如果是通過腳本動態(tài)更新網(wǎng)頁內(nèi)容,
則使用方案2。
2,點(diǎn)擊工具欄上的“運(yùn)行采集方案”圖標(biāo),根據(jù)步驟1,選擇方案1或2。如果已經(jīng)有方案1和2生成的downloadtotal.txt
文件,也可以選擇方案3。填入必要的信息或者表達(dá)式,點(diǎn)擊“開始采集”按鈕,系統(tǒng)將自動采集。點(diǎn)擊對話框的“取消”
按鈕,則不啟動采集任務(wù)直接關(guān)閉對話框。
3,點(diǎn)擊工具欄上的“停止采集方案”圖標(biāo),系統(tǒng)終止采集任務(wù)。
防止網(wǎng)頁采集:
防止采集第一種方法:在文章的頭尾加上隨機(jī)不固定的內(nèi)容。網(wǎng)站采集者在采集時(shí),通常都是指定一個(gè)開始位置和一個(gè)結(jié)束位置,截取中間的內(nèi)容。
比如你的文章內(nèi)容是"有訊軟件信息網(wǎng)",則隨機(jī)內(nèi)容的加入方法:
注:隨機(jī)內(nèi)容1和隨機(jī)內(nèi)容2每篇文章只要隨機(jī)顯示一個(gè)就可以了.