蜂巢數(shù)據(jù)是一款免費(fèi)的網(wǎng)頁采集分析軟件,你只需要編寫簡單的JavaScript腳本,就能實(shí)現(xiàn)對任何網(wǎng)頁的數(shù)據(jù)采集。蜂巢數(shù)據(jù)軟件也可以用來實(shí)現(xiàn)自動瀏覽網(wǎng)頁等功能。
采集入門
點(diǎn)擊工具欄上的"新建任務(wù)",將會彈出新建任務(wù)對話框。
輸入任務(wù)名稱"第一個(gè)任務(wù)",然后點(diǎn)擊保存,您已成功創(chuàng)建了第一個(gè)數(shù)據(jù)采集任務(wù)。
下圖是任務(wù)編輯器界面:
首先,我們先定義好數(shù)據(jù)表。點(diǎn)擊任務(wù)編輯器下面的"數(shù)據(jù)字段"標(biāo)簽。
我們添加兩個(gè)字段,"標(biāo)題"和"內(nèi)容",如下圖所示:
接下來我們需要編寫一小段JavaScript代碼來執(zhí)行任務(wù),編寫采集任務(wù)只需要會簡單的JavaScript語法。
提示:如果您沒學(xué)過JavaScript,網(wǎng)上有很多JavaScript入門教程,百度下"JavaScript語法基礎(chǔ)"。
把下面的JavaScript代碼復(fù)制到腳本編輯器,然后點(diǎn)擊運(yùn)行,稍等片刻,您會在數(shù)據(jù)字段面板里看到采集的數(shù)據(jù).
/* 加載需要采集的頁面 */
load("http://www.hdata.me/h1.html");
/* 提取我們所需的數(shù)據(jù) */
t = inner_text("obj1");
c = inner_text("/html/body[1]/div[1]");
/* 把數(shù)據(jù)保存到數(shù)據(jù)庫 */
save([t, c]);
到目前為止,我們都在調(diào)試模式運(yùn)行腳本,調(diào)試模式下數(shù)據(jù)不會真正保存到數(shù)據(jù)庫。
點(diǎn)擊工具欄上的"保存",選中"第一個(gè)任務(wù)",然后點(diǎn)擊"開始任務(wù)",此時(shí)任務(wù)運(yùn)行在工作模式。
等任務(wù)運(yùn)行結(jié)束,點(diǎn)擊"查看數(shù)據(jù)",我們會在新窗口中看到該任務(wù)采集到的數(shù)據(jù)。
更新日志:
v1.2
1. 增加數(shù)據(jù)導(dǎo)出功能
2. 增加計(jì)劃任務(wù)(定時(shí)采集)功能
3. 增加任務(wù)導(dǎo)入,導(dǎo)出功能