西西軟件園多重安全檢測(cè)下載網(wǎng)站、值得信賴的軟件下載站!
西西首頁 電腦軟件 安卓軟件 電腦游戲 安卓游戲 排行榜 專題合集

光年SEO日志分析系統(tǒng)(iis日志分析)

v2.0 中文綠色版
  • 光年SEO日志分析系統(tǒng)(iis日志分析)v2.0 中文綠色版
  • 軟件大小:269KB
  • 更新時(shí)間:2012-08-03 11:14
  • 軟件語言:中文
  • 軟件廠商:
  • 軟件類別:國產(chǎn)軟件 / 免費(fèi)軟件 / 站長(zhǎng)工具
  • 軟件等級(jí):4級(jí)
  • 應(yīng)用平臺(tái):WinXP, WinAll
  • 官方網(wǎng)站:http://www.hz-gn.com/
  • 應(yīng)用備案:
好評(píng):50%
壞評(píng):50%

軟件介紹

 《光年SEO日志分析系統(tǒng)》對(duì)網(wǎng)站的IIS日志進(jìn)行分析,可以分析超日志文件。

1,這是第一個(gè)專門為SEO設(shè)計(jì)的日志分析軟件。

以前的很多日志分析軟件,都是順帶分析一下SEO方面的數(shù)據(jù),而這個(gè)軟件里面分析的每一個(gè)指標(biāo)都是為SEO設(shè)計(jì)的。而且很多的分析維度,都是其他日志分析軟件沒有的。這能讓你看到很多非常有用、但是以前獲取不了的數(shù)據(jù)。

2,它能分析無限大的日志,而且速度很快。

很多的日志分析軟件,在日志大于2G以后,都會(huì)越來越慢或者程序無響應(yīng)。而這個(gè)軟件能分析無限大的日志,并且每小時(shí)能分析完40G的日志。這對(duì)于那種需要分析幾個(gè)月內(nèi)的日志、以及要分析幾十G的大型網(wǎng)站的日志都非常有幫助。

3,能自動(dòng)判斷日志格式。

現(xiàn)在很多的日志分析軟件,對(duì)Nginx或者CDN日志都不支持,而且對(duì)日志記錄的順序都要格式要求。而這個(gè)軟件就沒有這么多的限制,它能從日志中自動(dòng)檢測(cè)到哪個(gè)是時(shí)間、哪個(gè)是URL、哪個(gè)是IP地址等等。

4,軟件容量小、操作簡(jiǎn)單、綠色免安裝版。

這個(gè)軟件不會(huì)動(dòng)不動(dòng)就幾十M,現(xiàn)在軟件還不足1M,可以用郵件附件非常方便發(fā)出去。 軟件的操作也很簡(jiǎn)單,三個(gè)步驟就可以。 還有就是軟件不需要安裝,是綠色免安裝版。

軟件的缺點(diǎn):

目前因?yàn)樵诮鉀Q軟件的效率問題上花了很多時(shí)間,所以現(xiàn)在日志分析的維度還太少,以后會(huì)逐步增加很多功能。還有就是數(shù)據(jù)的準(zhǔn)確性雖然還可以,但是還有很大的改進(jìn)空間。

第二版增加了更多的分析維度,還增加了日志拆分的功能。

下面先來看幾個(gè)固定的分析維度,下面的數(shù)據(jù)是semyj.com我這個(gè)博客的日志分析數(shù)據(jù)。

首先是“概要分析”:

概要分析

這里有各個(gè)爬蟲“訪問次數(shù)”、“總停留時(shí)間”和“總抓取量”的統(tǒng)計(jì)。從上面這個(gè)數(shù)據(jù)可以看出,百度爬蟲的抓取深度是不高的:訪問1868次,抓取量是2968,平均每次抓取1.59頁。這其實(shí)是百度爬蟲普遍的抓取特征,在絕大部分網(wǎng)站上都是這個(gè)規(guī)律。抓取深度不高的話,會(huì)造成很多層級(jí)很深的頁面不會(huì)被抓取到;以及造成少數(shù)頁面被反反復(fù)復(fù)在抓取,浪費(fèi)了爬蟲的時(shí)間。這樣,很多網(wǎng)站想要在百度上獲得收錄就成了問題,特別是大中型網(wǎng)站。我所接觸的所有大中型網(wǎng)站,在刻意去優(yōu)化之前,一年下來很多網(wǎng)站至少還有一半的網(wǎng)頁沒有被百度爬蟲抓取到,部分網(wǎng)站甚至更嚴(yán)重。相比之下Google的抓取深度就好很多,總的抓取量也大一些。

這里面比較重要的數(shù)據(jù)是那個(gè)“總抓取量”,因?yàn)樗绊懢W(wǎng)站的收錄量,進(jìn)而影響網(wǎng)站的SEO流量。在《網(wǎng)頁加載速度是如何影響SEO效果的》一文中說明過抓取量和SEO流量的關(guān)系。這個(gè)“總抓取量”的數(shù)據(jù)是好還是壞,是要根據(jù)每個(gè)網(wǎng)站的實(shí)際情況來看的。就semyj.com這個(gè)網(wǎng)站來說,它現(xiàn)在有53篇文章,300多個(gè)網(wǎng)頁,而現(xiàn)在google每天有16484個(gè)抓取量,百度有2968個(gè)抓取量。如果光看這個(gè)數(shù)據(jù),那看起來這300多個(gè)網(wǎng)頁基本上在一天之內(nèi)應(yīng)該是能被抓取到的。但是很多大中型網(wǎng)站就不一樣。

這里我先要說明一個(gè)有些人會(huì)混淆的問題。為什么我上面會(huì)刻意說明一下文章數(shù)量和網(wǎng)頁數(shù)量呢,這是因?yàn)槲恼聰?shù)量肯定是不等于網(wǎng)頁數(shù)量的。不過有些人去查收錄量的時(shí)候就忽視了這個(gè)常識(shí)。如某網(wǎng)站的文章量(或稱單個(gè)資訊數(shù)量)是30萬,去搜索引擎用site等語法去查詢收錄量是29萬,就覺得自己的收錄量差不多了,而實(shí)際可能差得很遠(yuǎn)。

因?yàn)閱蝹(gè)頁面都會(huì)派生出很多其他頁面的。如果打開某一個(gè)文章頁面,去數(shù)一下里面的URL,除去那些模板上重復(fù)的,還是有那么一些URL是只有當(dāng)前這個(gè)頁面上才有的,也就是這個(gè)頁面派生出來的。而一個(gè)URL對(duì)應(yīng)一個(gè)頁面,所以一個(gè)網(wǎng)站上擁有的頁面數(shù)量是這個(gè)網(wǎng)站的信息量的好幾倍,有時(shí)甚至是十幾二十倍。

所以在看這個(gè)“總抓取量”之前,需要把自己網(wǎng)站內(nèi)可能擁有的頁面數(shù)量統(tǒng)計(jì)一遍?梢杂胠ynx在線版把每一類型的頁面上的URL都提取出來看一看。網(wǎng)頁總的數(shù)量知道了,再和“總抓取量”做對(duì)比,就可以知道這個(gè)數(shù)據(jù)是好還是差了。我覺得基本上,google爬蟲的抓取量要是網(wǎng)站頁面數(shù)量的2倍以上,抓取量才算及格,baidu爬蟲就需要更多了。因?yàn)閷?shí)際上這個(gè)抓取量里面還有很多是重復(fù)抓取的;還有和上一天相比,每天的新增的頁面抓取不是很多的。

這三個(gè)數(shù)據(jù):“訪問次數(shù)”、“總停留時(shí)間”和“總抓取量”,都是數(shù)字越高對(duì)網(wǎng)站越有利,所以需要想很多辦法提高他們。大多數(shù)時(shí)候看他們絕對(duì)值沒什么用處,而要看現(xiàn)在的和過去的比較值。如果你能每天去一直追蹤這些數(shù)據(jù)的變化情況,就能發(fā)現(xiàn)很多因素是如何影響這些數(shù)據(jù)的。

以下其他數(shù)據(jù)也是如此:某個(gè)當(dāng)前數(shù)據(jù)的值有時(shí)候不一定有意義的,但是長(zhǎng)期跟蹤這個(gè)數(shù)據(jù)的變化就能發(fā)現(xiàn)很多因素之間是如何互相影響的。

然后是“目錄抓取”的數(shù)據(jù):

目錄抓取統(tǒng)計(jì)

這個(gè)“目錄”抓取的數(shù)據(jù)是對(duì)“總抓取量”的一個(gè)細(xì)分。一個(gè)網(wǎng)站當(dāng)中,一定是有重點(diǎn)頁面和非重點(diǎn)頁面的,這個(gè)數(shù)據(jù)就可以讓你看看哪一類型的頁面被抓取的多,及時(shí)做一些調(diào)整。

還有就是可以去搜索引擎按URL特征查詢一下各個(gè)目錄下的頁面的收錄情況,再來和這個(gè)目錄下的搜索引擎的抓取數(shù)據(jù)做一個(gè)對(duì)比,就可以發(fā)現(xiàn)更多的問題。對(duì)于semyj.com來說,看完這個(gè)數(shù)據(jù)就知道,可能那300多個(gè)網(wǎng)頁在一天之內(nèi)還是不能全部被抓取一遍的,因?yàn)樵瓉泶蟛糠肿ト《荚赽bs這個(gè)目錄下。(有時(shí)候就是有很多這樣意外的情況發(fā)生,bbs這個(gè)目錄早已經(jīng)做了301跳轉(zhuǎn),沒想到還有這么大的抓取量!磾(shù)據(jù)永遠(yuǎn)能知道真相是什么。)

接著是“頁面抓取”的數(shù)據(jù):

頁面抓取

這個(gè)數(shù)據(jù)把一個(gè)網(wǎng)站中那些被重復(fù)抓取的頁面統(tǒng)計(jì)了出來,并分別統(tǒng)計(jì)是哪些爬蟲分別抓取了多少次。大家多分析幾個(gè)網(wǎng)站就會(huì)明白,百度爬蟲經(jīng)常是過度抓取的?。這個(gè)數(shù)據(jù)也驗(yàn)證了前面的數(shù)據(jù):因?yàn)樗骄看巫ト?.59頁,也就是每次來抓取都停留在表層,但是又經(jīng)常來抓,所以勢(shì)必導(dǎo)致少部分頁面是經(jīng)常被百度抓取的。因?yàn)橛兄貜?fù)抓取的存在,所以一個(gè)網(wǎng)站光看抓取量大不大是沒什么用的,還要看有多少不重復(fù)的頁面被抓取到了。還有就是要想辦法解決這個(gè)問題。

在“蜘蛛IP排行”數(shù)據(jù)里,統(tǒng)計(jì)了每個(gè)爬蟲IP的訪問情況:

IP排行

如果分析過很多網(wǎng)站,就會(huì)發(fā)現(xiàn)爬蟲對(duì)某一個(gè)站的訪問,特定時(shí)間內(nèi)的IP段都會(huì)集中在某一個(gè)C段。這是由搜索引擎的原理決定的,感興趣的朋友可以查詢相關(guān)書籍。知道這個(gè)特征有時(shí)候可以用得著。

報(bào)表里有個(gè)查詢IP地址的功能,可以查詢那些爬蟲IP是不是真的,如上圖紅框內(nèi)的IP,就是一個(gè)偽裝成google爬蟲的采集者。

這個(gè)數(shù)據(jù)和上面的所有數(shù)據(jù)都一樣,前后對(duì)比就可以發(fā)現(xiàn)更多的信息。

以下是“關(guān)鍵字分析”的數(shù)據(jù):

關(guān)鍵詞分析

“類型”這里是說明這個(gè)關(guān)鍵詞是從網(wǎng)頁搜索還是圖片搜索或視頻搜索里來的SEO流量。而“上次用關(guān)鍵字”,是統(tǒng)計(jì)用戶搜索當(dāng)前的關(guān)鍵詞進(jìn)入網(wǎng)站之前,是在搜索什么詞語。這個(gè)功能只有百度有效,因?yàn)榘俣仍趗rl中記錄了用戶上次使用的關(guān)鍵詞。 這個(gè)地方的界面還需要修改,下一版本中會(huì)完善。

“狀態(tài)碼分析”報(bào)告中,現(xiàn)在把用戶碰到的狀態(tài)嗎和爬蟲碰到的狀態(tài)碼分開了,其他沒有什么改變:

狀態(tài)碼

這里每一行數(shù)據(jù)都分為兩個(gè)部分,第1部分是表示哪個(gè)文件出現(xiàn)了這個(gè)狀態(tài)碼,第2部分是表示發(fā)生在哪個(gè)網(wǎng)頁。從上面的數(shù)據(jù)可以看出,這個(gè)網(wǎng)站在被一些黑客工具掃描。

在《光年SEO日志分析系統(tǒng)》第二版中,最重要的升級(jí)是增加了“日志拆分”功能。有了這個(gè)功能,就可以用任意維度去分析網(wǎng)站日志了。

以下是可以拆分的日志字段:

拆分字段

 只要你的網(wǎng)站日志是齊全的,有了日志拆分功能這個(gè)功能就相當(dāng)于有了一個(gè)數(shù)據(jù)倉庫。這個(gè)時(shí)候查看網(wǎng)站的數(shù)據(jù),就:只有你想不到,沒有它查不到的。

如:我們要查看上面那個(gè)偽裝成google蜘蛛的IP采集了哪些網(wǎng)頁,就把拆分條件定義為:ip等于222.186.24.59,agent等于googlebot,就可以把日志拆分出來了;還有要看是哪些IP在用黑客工具掃描網(wǎng)站時(shí),就把拆分條件定義為:url等于MIRSERVER.RAR或等于WWWROOT.RAR等等就可以看到了。

我還建議大家多去拆分爬蟲的抓取軌跡,把某一個(gè)爬蟲IP的抓取路徑拆分出來,觀察它的抓取路徑,再和網(wǎng)站上的URL對(duì)應(yīng),就能明白爬蟲抓取的很多規(guī)律。

其實(shí)本來還應(yīng)該開發(fā)一個(gè)日志合并的功能,但是這個(gè)功能實(shí)在太簡(jiǎn)單,一般我們用DOS里面的copy命令就可以解決這個(gè)問題:

Copy命令

這樣,你可以把網(wǎng)站一星期內(nèi)的、一個(gè)月內(nèi)的甚至半年來的日志合并起來分析。《光年SEO日志分析系統(tǒng)》是支持分析無限大的日志的,只要你有時(shí)間。

在“設(shè)置”-“性能設(shè)置”里,有兩個(gè)地方要注意。一個(gè)是那個(gè)“蜘蛛計(jì)算間隔”,這里表示一個(gè)蜘蛛多少時(shí)間內(nèi)沒有活動(dòng)就算它離開了。這里要注意對(duì)比分析的時(shí)候每次都要是同一個(gè)時(shí)間,因?yàn)檫@里的時(shí)間按改變了,那計(jì)算爬蟲來訪的次數(shù)就變了。還有一個(gè)是“分析顯示條數(shù)”,現(xiàn)在你可以自己定義在報(bào)表中要顯示多少行數(shù)據(jù),默認(rèn)只有5條。

軟件標(biāo)簽: iis 日志分析

其他版本下載

發(fā)表評(píng)論

昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
查看所有(0)條評(píng)論 > 字?jǐn)?shù): 0/500

TOP
軟件下載