網(wǎng)絡(luò)爬蟲是一款一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲,該又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者,歡迎需要的下載!
軟件介紹:
NwebCrawler是用C#寫的一款多線程網(wǎng)絡(luò)爬蟲程序,它的實現(xiàn)原理是先輸入一個或多個種子URL到隊列中,然后從隊列中提取URL(先進(jìn)先出原則),分析此網(wǎng)頁尋找相應(yīng)標(biāo)簽并獲得其href屬性值,爬取有用的鏈接網(wǎng)頁并存入網(wǎng)頁庫中,其中用爬取歷史來記錄爬過的網(wǎng)頁,這樣避免了重復(fù)爬取。提取URL存入隊列中,進(jìn)行下一輪爬取。所以NwebCrawler的搜索策略為廣度優(yōu)先搜索。采用廣度優(yōu)先策略有利于多個線程并行爬取而且抓取的封閉性很強(qiáng)。
功能介紹:
可配置:線程數(shù),等待時間,連接超時,允許MIME類型和優(yōu)先級,下載文件夾。
統(tǒng)計信息:URL數(shù)量,總下載文件,總下載字節(jié)數(shù),CPU利用率和可用內(nèi)存。
Preferential crawler:用戶可以設(shè)置優(yōu)先級的MIME類型。
Robust: 10+ URL normalization rules, crawler trap avoiding rules.
歡迎下載!