您当前位置: 首页 -> Seo优化 -> Linux命令分析搜索引擎蜘蛛的爬行行为

Linux命令分析搜索引擎蜘蛛的爬行行为

请首先看看日志文件的大小,如果特别大的话(比如:超过50MB)建议不要用这些命令分析,因为这些命令较消耗CPU,或者抓下来放到分析机上执行,以免影响网站的速度。如果是Dreamhost等共享主机的话,分析大日志很消耗CPU,进程很容易被Kill掉。

  这些命令都是Linux下的shell命令,在Windows主机下无法执行。

一 百度蜘蛛爬行的次数

  cat access.log.2009-04-18 | grep Baiduspider | wc

二 百度蜘蛛的详细记录(如果记录很长不想看了可以Ctrl C终止)

  cat access.log.2009-04-18 | grep Baiduspider

  你也可以用如下命令:

  cat access.log.2009-04-18 | grep Baiduspider | tail -n 100

  cat access.log.2009-04-18 | grep Baiduspider | head -n 100

  只看最后100条或者最前100条

三 百度蜘蛛抓取首页的详细记录

  cat access.log.2009-04-18 | grep Baiduspider | grep “GET / HTTP”
研究发现,百度蜘蛛对首页非常热爱,24小时每小时都要看我的某个新站的首页,而googe和yahoo蜘蛛更喜欢内页,一天中各自只看了2次首页。

四 Baidu蜘蛛派性记录时间点分布

  cat access.log.2009-04-18 | grep “Baiduspider ” | awk ‘{print $4}’

五 Baidu蜘蛛爬行页面按次数降序列表

  cat access.log.2009-04-18 | grep “Baiduspider ” | awk ‘{print $7}’ | sort | uniq -c | sort -r


作者:赖 军@月影SEO搜索营销博客
原文链接:http://028seo.org/archives/68
版权所有,转载请以链接形式注明作者及原始出处。

分享到QQ空间

留下评论