如何采集58同城上面信息?采集教程每一家公司中都會(huì)有專(zhuān)門(mén)的招聘專(zhuān)員,作為一名優(yōu)秀的招聘專(zhuān)員,就一定要學(xué)會(huì)如何在58同城上采集一些有價(jià)值的招聘信息,F(xiàn)在就讓西西小編教教你如何正確的采集寶貴的信息吧!
步驟:
首先需要找好專(zhuān)門(mén)的采集軟件,今天西西小編主要用的是熊貓采集軟件。需要到官網(wǎng)下載這個(gè)軟件。
然后打開(kāi)我們這次采集需要的工具熊貓采集軟件,點(diǎn)擊新建項(xiàng)目(標(biāo)準(zhǔn))。
隨便輸入一個(gè)項(xiàng)目名稱(chēng),或者不輸入也是可以的,系統(tǒng)默認(rèn)會(huì)給你命名一個(gè)文件名,這里因?yàn)槲沂菧?zhǔn)備采集58二手房上面的電話(huà)號(hào)碼的信息 我就起了一個(gè)我需要的名稱(chēng)。
然后點(diǎn)擊下一步。
進(jìn)入標(biāo)題列表頁(yè)及其翻頁(yè)設(shè)置,列表頁(yè)是包含我們要采集內(nèi)容的鏈接網(wǎng)址的頁(yè)面,比如百度搜索一個(gè)關(guān)鍵詞,會(huì)列出來(lái)很多網(wǎng)頁(yè),這些網(wǎng)頁(yè)我們就可以認(rèn)為是標(biāo)題列表頁(yè)面。在58上面找到我們要采集的標(biāo)題列表頁(yè)。
將頁(yè)面的網(wǎng)址拷貝到我們的熊貓軟件中。
點(diǎn)擊開(kāi)始分析。
如果我們需要翻頁(yè)采集,那么選擇是即可,不要?jiǎng)t選擇否即可。我這里沒(méi)有設(shè)置翻頁(yè)采集,我選擇的是否,當(dāng)然這個(gè)根據(jù)實(shí)際情況來(lái)決定。
點(diǎn)擊下一步設(shè)置,進(jìn)入選擇內(nèi)容頁(yè)的設(shè)置,隨便選擇一個(gè)我們要采集的鏈接,會(huì)發(fā)現(xiàn)右邊我們要采集的鏈接全部被紅框框選起來(lái)了。那么這里我們就不要進(jìn)行調(diào)整,直接再次下一步設(shè)置。
來(lái)到內(nèi)容頁(yè)面模板管理,直接點(diǎn)擊添加新模板,會(huì)把我們?cè)谏弦徊竭x中的鏈接作為模板,這地方也可以自己選擇一個(gè)模板,然后把網(wǎng)址粘貼到添加新模板按鈕左邊的文本框里,點(diǎn)擊添加新模板。
點(diǎn)擊添加新模板之后會(huì)彈出一個(gè)設(shè)置模板的新窗口。點(diǎn)擊軟件上方的開(kāi)始分析,稍等片刻之后軟件會(huì)詢(xún)問(wèn)你是否需要軟件自動(dòng)提取標(biāo)題正文,一般情況下我們?cè)谶@里都會(huì)選擇否,如果你是采集新聞?lì)惖膬?nèi)容,那么你也可以選擇是。
之后我們會(huì)發(fā)現(xiàn)左邊款里面會(huì)出現(xiàn)很多我們?cè)诰W(wǎng)頁(yè)中能看見(jiàn)的內(nèi)容,這個(gè)時(shí)候我們需要什么就勾選上采集該項(xiàng)即可。
這個(gè)時(shí)候我們會(huì)發(fā)現(xiàn),上面模板如果是我們是用的個(gè)人二手房源的話(huà),那么我在左邊是看不到電話(huà)號(hào)碼的信息的,看到的只會(huì)是一張圖片,這個(gè)時(shí)候我們只需要稍微做點(diǎn)手腳就可以采集圖片上面的電話(huà)號(hào)碼了。像58同城這種網(wǎng)站,我們會(huì)發(fā)現(xiàn)在wap上面訪問(wèn)這個(gè)內(nèi)容時(shí),看到的電話(huà)號(hào)碼就是數(shù)字了。那么我們只需要知道wap訪問(wèn)的時(shí)候是什么網(wǎng)址就可以了。
勾選上之后,輸入我們的中介規(guī)則。
然后然后替換到網(wǎng)址,組合一下就會(huì)出現(xiàn)我們要采集的那個(gè)手機(jī)訪問(wèn)出來(lái)的頁(yè)面地址。
點(diǎn)擊添加按鈕之后,勾選上該鏈接為指向下級(jí)子頁(yè)面的鏈接,點(diǎn)擊分析鏈接指向的頁(yè)面,然后進(jìn)入到我們下級(jí)子頁(yè)面。
在子頁(yè)面里面我們開(kāi)始設(shè)置,點(diǎn)開(kāi)始分析按鈕。
這個(gè)時(shí)候我們?cè)偃ゲ杉覀円杉碾娫?huà)號(hào)碼會(huì)發(fā)現(xiàn)已經(jīng)變成數(shù)字了,不在是一張圖片了。
然后再里面尋找自己想要的信息就可以了。