从nginx日志分析搜索引擎爬行记录
截至今天,google对摩迹网的收录已经达到5250,而百度仍然只收录首页,而且是3月21号的首页!
为了搞清楚为什么,要查询nginx访问日志,看看百度的蜘蛛有没有来爬过,下面几个命令可以做到:
1. 百度蜘蛛来访次数
[root@localhost 04]# cat access_molgee_20110403.log |grep Baiduspider+ | wc
这里的第一个数字435就是百度蜘蛛访问的次数,可见在4月3号它来了435次,爬了我这么多页面却不更新收录?继续分析:
2. 讲百度蜘蛛访问过的页面按访问频率倒序显示
[root@localhost 04]# cat access_molgee_20110403.log |grep Baiduspider+ | awk '{print $7}' | sort | uniq -c | sort -r
啊,似乎找到原因了,因为molgee上线之前我把域名指向了我的博客,百度收录了其中一些页面,而现在这些页面已经访问不了,全部会定向到error.html,也许是这个原因。当然更有可能是,我在博客里贬了好几次百度,比如这篇《我们为什么要用百度》,所以你可以看到它爬这篇文章的频率仅次于robots.txt
从JavaEye创办者robbin的微博上就可以看到百度这么干的先例
多可笑,如果真的是后者,我无话可说,欺负创业者就是中国首富最爱干的事儿,下面再转一位创业者的微博
如果是前者
除了祝李彦宏先生的女儿为她的父亲感到骄傲,我所能做的只有等待,等着哪天百度的搜索结果中能出现摩迹两个字,或者是销售人员打来电话告诉我我需要交点保护费才能不k我的站。
对了,上面两条命令,把Baiduspider+ 改成Googlebot或者别的什么蜘蛛的名字就能查看对应的记录。
我查了查,google每天要来爬1400多页,作为程序员,我更喜欢用数据说话。







