現(xiàn)在市面上充斥著一些收費的網(wǎng)頁采集器,這樣一款綠色免費的網(wǎng)頁采集器不管他功能怎么樣,是免費的就很難得了!
本軟件通過互聯(lián)網(wǎng),采集網(wǎng)頁信息。有兩大特色功能:
1,可以采集js之后的動態(tài)信息。
2,可以設定采集的正則表達式。
另外,本軟件內(nèi)置多種采集方案,分別對應靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁。
官網(wǎng)的圖片(人臉)搜索引擎的數(shù)據(jù)都是用這個軟件采集,然后才做索引的。
使用步驟:
1,輸入網(wǎng)址,正常瀏覽網(wǎng)頁到達采集目標后,點擊工具欄上的“查看js后源碼”圖標,則顯示執(zhí)行js后的網(wǎng)頁內(nèi)容。
如果沒有看到相關內(nèi)容,可以等待片刻再次點擊,以保證js代碼執(zhí)行完畢。通過瀏覽完整的網(wǎng)頁源碼,我們可以確定
使用方案1還是方案2。如果更改網(wǎng)址的頁碼就可以導航到下一頁,則使用方案1;如果是通過腳本動態(tài)更新網(wǎng)頁內(nèi)容,
則使用方案2。
2,點擊工具欄上的“運行采集方案”圖標,根據(jù)步驟1,選擇方案1或2。如果已經(jīng)有方案1和2生成的downloadtotal.txt
文件,也可以選擇方案3。填入必要的信息或者表達式,點擊“開始采集”按鈕,系統(tǒng)將自動采集。點擊對話框的“取消”
按鈕,則不啟動采集任務直接關閉對話框。
3,點擊工具欄上的“停止采集方案”圖標,系統(tǒng)終止采集任務。
防止網(wǎng)頁采集:
防止采集第一種方法:在文章的頭尾加上隨機不固定的內(nèi)容。網(wǎng)站采集者在采集時,通常都是指定一個開始位置和一個結(jié)束位置,截取中間的內(nèi)容。
比如你的文章內(nèi)容是"有訊軟件信息網(wǎng)",則隨機內(nèi)容的加入方法:
注:隨機內(nèi)容1和隨機內(nèi)容2每篇文章只要隨機顯示一個就可以了.