请首先看看日志文件的大小,如果特别大的话(比如:超过50MB)建议不要用这些命令分析,因为这些命令较消耗CPU,或者抓下来放到分析机上执行,以免影响网站的速度。如果是Dreamhost等共享主机的话,分析大日志很消耗CPU,进程很容易被Kill掉。
这些命令都是Linux下的shell命令,在Windows主机下无法执行。
一 百度蜘蛛爬行的次数
cat access.log.2009-04-18 | grep Baiduspider | wc
二 百度蜘蛛的详细记录(如果记录很长不想看了可以Ctrl C终止)
cat access.log.2009-04-18 | grep Baiduspider
你也可以用如下命令:
cat access.log.2009-04-18 | grep Baiduspider | tail -n 100
cat access.log.2009-04-18 | grep Baiduspider | head -n 100
只看最后100条或者最前100条
三 百度蜘蛛抓取首页的详细记录
cat access.log.2009-04-18 | grep Baiduspider | grep “GET / HTTP”
研究发现,百度蜘蛛对首页非常热爱,24小时每小时都要看我的某个新站的首页,而googe和yahoo蜘蛛更喜欢内页,一天中各自只看了2次首页。
四 Baidu蜘蛛派性记录时间点分布
cat access.log.2009-04-18 | grep “Baiduspider ” | awk ‘{print $4}’
五 Baidu蜘蛛爬行页面按次数降序列表
cat access.log.2009-04-18 | grep “Baiduspider ” | awk ‘{print $7}’ | sort | uniq -c | sort -r
作者:赖 军@月影SEO搜索营销博客
原文链接:http://028seo.org/archives/68
版权所有,转载请以链接形式注明作者及原始出处。