WebHarvy網(wǎng)頁(yè)采集大師漢化版是一個(gè)國(guó)外采集工具,網(wǎng)站首發(fā)漢化版本,本程序已經(jīng)漢化了90%,對(duì)有限制的網(wǎng)頁(yè)進(jìn)行編輯的軟件非常易于使用且功能強(qiáng)大的應(yīng)用,可以從網(wǎng)頁(yè)自動(dòng)抽取數(shù)據(jù)(文本,URL和圖像)并且以不同的格式保存提取內(nèi)容。
應(yīng)用說(shuō)明
WebHarvy是一個(gè)方便的應(yīng)用程序旨在使您能夠自動(dòng)從網(wǎng)頁(yè)中提取數(shù)據(jù)并保存提取的內(nèi)容在不同的格式。 WebHarvy,捕獲數(shù)據(jù)從web頁(yè)面一樣容易導(dǎo)航到頁(yè)面包含數(shù)據(jù)和點(diǎn)擊數(shù)據(jù)捕獲。WebHarvy會(huì)智能地識(shí)別數(shù)據(jù)模式發(fā)生在web頁(yè)面。 使用WebHarvy,您可以提取數(shù)據(jù),如產(chǎn)品目錄或搜索結(jié)果從不同的網(wǎng)站,在不同的類(lèi)別,如房地產(chǎn)、電子商務(wù)、學(xué)術(shù)研究、娛樂(lè)、技術(shù)等。從網(wǎng)頁(yè)中提取的數(shù)據(jù)可以保存在不同的格式。 通常web頁(yè)面顯示數(shù)據(jù),如在多個(gè)頁(yè)面的搜索結(jié)果。 WebHarvy可以自動(dòng)爬行和提取數(shù)據(jù)從多個(gè)頁(yè)面。
軟件特點(diǎn)
WebHarvy可以讓您分析網(wǎng)頁(yè)上的數(shù)據(jù)
可以顯示從一個(gè)HTML地址上分析連接數(shù)據(jù)
可以延伸到下一個(gè)網(wǎng)頁(yè)頁(yè)面
可以指定搜索數(shù)據(jù)的范圍以及內(nèi)容
可以將掃描的圖片下載保存
支持在瀏覽器上復(fù)制鏈接搜索
支持配置對(duì)應(yīng)資源項(xiàng)目搜索
可以使用項(xiàng)目名稱以及資源名稱查找
功能特點(diǎn)
視覺(jué)點(diǎn)和點(diǎn)擊界面
WebHarvy是一個(gè)可視化的網(wǎng)頁(yè)提取工具。其實(shí)完全沒(méi)有必要編寫(xiě)任何腳本或代碼用來(lái)提取數(shù)據(jù)。使用WebHarvy的內(nèi)置瀏覽器瀏覽網(wǎng)頁(yè)。您可以選擇用鼠標(biāo)點(diǎn)擊來(lái)提取數(shù)據(jù)。它是那么容易!
智能識(shí)別模式
自動(dòng)識(shí)別網(wǎng)頁(yè)中出現(xiàn)的數(shù)據(jù)模式。所以,如果你需要從一個(gè)網(wǎng)頁(yè)刮項(xiàng)目(姓名,地址,電子郵件,價(jià)格等)的列表,你不需要做任何額外的配置。如果數(shù)據(jù)重復(fù),WebHarvy會(huì)自動(dòng)刮。
導(dǎo)出捕獲的數(shù)據(jù)
可以保存從各種格式的網(wǎng)頁(yè)中提取的數(shù)據(jù)。 WebHarvy網(wǎng)站刮板的當(dāng)前版本允許你導(dǎo)出的刮數(shù)據(jù)作為XML,CSV,JSON或TSV文件。您還可以刮下數(shù)據(jù)導(dǎo)出到一個(gè)SQL數(shù)據(jù)庫(kù)。
從多個(gè)頁(yè)面提取
通常網(wǎng)頁(yè)顯示數(shù)據(jù),如在多個(gè)頁(yè)面中的產(chǎn)品目錄。 WebHarvy可以自動(dòng)抓取并從多個(gè)網(wǎng)頁(yè)中提取數(shù)據(jù)。只是指出了“鏈接到下一頁(yè)'和WebHarvy網(wǎng)站刮板將自動(dòng)刮從所有頁(yè)面的數(shù)據(jù)。
基于關(guān)鍵字的提取
基于關(guān)鍵字的提取可讓您捕捉從搜索結(jié)果頁(yè)面輸入關(guān)鍵字的列表數(shù)據(jù)。您創(chuàng)建的配置將被自動(dòng)重復(fù)所有給定輸入關(guān)鍵字,而挖掘的數(shù)據(jù)?梢灾付ㄈ我鈹(shù)量的輸入關(guān)鍵字
通過(guò)代{過(guò)}{濾}理服務(wù)器提取
提取匿名和防止提取網(wǎng)絡(luò)軟件被封鎖的Web服務(wù)器,您必須通過(guò)代{過(guò)}{濾}理服務(wù)器訪問(wèn)目標(biāo)網(wǎng)站的選項(xiàng)。可以使用一個(gè)單一的代{過(guò)}{濾}理服務(wù)器地址或代{過(guò)}{濾}理服務(wù)器的地址列表。
提取分類(lèi)
WebHarvy網(wǎng)站刮板允許您從一個(gè)鏈接列表,從而導(dǎo)致一個(gè)網(wǎng)站內(nèi)的相似頁(yè)面抽取數(shù)據(jù)。這使您可以使用一個(gè)單一的配置刮網(wǎng)站內(nèi)的類(lèi)別或小節(jié)。
使用正則表達(dá)式提取
WebHarvy可以應(yīng)用正則表達(dá)式(正則表達(dá)式)在文本或網(wǎng)頁(yè)的HTML源代碼,并提取去匹配的部分。這種強(qiáng)大的技術(shù)為您提供了更多的靈活性,同時(shí)拼搶的數(shù)據(jù)。