从nginx日志分析搜索引擎爬行记录

截至今天,google对摩迹网的收录已经达到5250,而百度仍然只收录首页,而且是3月21号的首页!

为了搞清楚为什么,要查询nginx访问日志,看看百度的蜘蛛有没有来爬过,下面几个命令可以做到:

1. 百度蜘蛛来访次数

[root@localhost 04]# cat access_molgee_20110403.log |grep Baiduspider+ | wc

访问次数.jpg

这里的第一个数字435就是百度蜘蛛访问的次数,可见在4月3号它来了435次,爬了我这么多页面却不更新收录?继续分析:

2. 讲百度蜘蛛访问过的页面按访问频率倒序显示

[root@localhost 04]# cat access_molgee_20110403.log |grep Baiduspider+ | awk '{print $7}' | sort | uniq -c | sort -r

频率.jpg

啊,似乎找到原因了,因为molgee上线之前我把域名指向了我的博客,百度收录了其中一些页面,而现在这些页面已经访问不了,全部会定向到error.html,也许是这个原因。当然更有可能是,我在博客里贬了好几次百度,比如这篇《我们为什么要用百度》,所以你可以看到它爬这篇文章的频率仅次于robots.txt

从JavaEye创办者robbin的微博上就可以看到百度这么干的先例

robin微博.jpg

多可笑,如果真的是后者,我无话可说,欺负创业者就是中国首富最爱干的事儿,下面再转一位创业者的微博

baidu.jpg

如果是前者

除了祝李彦宏先生的女儿为她的父亲感到骄傲,我所能做的只有等待,等着哪天百度的搜索结果中能出现摩迹两个字,或者是销售人员打来电话告诉我我需要交点保护费才能不k我的站。

对了,上面两条命令,把Baiduspider+ 改成Googlebot或者别的什么蜘蛛的名字就能查看对应的记录。

我查了查,google每天要来爬1400多页,作为程序员,我更喜欢用数据说话。

狮屎胜于熊便(再谈百度和google)

大概是去年的这个时候,写了一篇文章,叫做我们凭什么用百度,大概是没有多少说服力的,今天偶然间发现一个强有力的证据,我用google搜了一下js

g.jpg

你可以看到,google很聪明的告诉我,我要找的是javascript,并且第一个链接是w3c school的js版,第二个江苏移动的出现是因为url里包含了js,按google的算法,url中出现的关键字权重应该是最高的,这个可以无视。再看第一页,基本全是javascript教程和资源,也就是说,当我只提供了js这两个字母时,google完全知道我最需要找的是什么。

qq截图未命名.jpg

再看百度呢,你不懂我的心思也就算了,前五条结果,排第一第二的是自家的百科和hao123,第五个是贴吧,如果百度的产品有朝一日发展到google这么多的话,大概第一页结果全是姓百的了吧!第一页除去最后几个江苏加速和百度自家产品,剩下有用的链接大概不到3个。

程序员用百度,早晚得完蛋。 

百度这杯具

SOBB = Some Of Baidu Bugs

发现了这么一个网页,上面列出了11个bug了,仍然在持续更新中。其中8条都是同一个人提的,此人一定是超级大牛。。。

百度真是好命,这么多高手免费给它捉虫,多么无私的一群人啊~

 
# Title Description Author

SOBB-11 hi.baidu albumEdit.swf Xss Bug http://hi.baidu.com/static/album/albumEdit.swf是百度推出的动感影集业务需要的Flash文件,对albumEdit.swf反编译后发现,该as脚本存在漏洞,可以导致xss

PiaCa


SOBB-10 hi.baidu upload swf Xss Bug 百度空间装扮系统是百度在2010年3月25日推出的空间装扮的新功能,这个系统允许用户自由上传SWF并不尽审核就发布.又由于百度的域名解析的问题,将导致安全隐患

PZ


SOBB-09 hi.baidu album Stored-XSS Bug 在新推出的百度空间相册密码访问功能中,系统对用户输入的问题未过滤,可以任意插入HTML代码,导致XSS漏洞

PZ


SOBB-08 hi.baidu vphoto Dom-Xss Bug 百度空间的动感影集处,JS进行DOM操作时,直接输出用户输入的数据进行编码,造成XSS

PZ


SOBB-07 hi.baidu music Dom-Xss Bug 百度空间的阅读文章处,JS对博客内容进行DOM操作时,未充分对用户输入的数据进行编码,输出时造成XSS

PZ


SOBB-06 hi.baidu album.swf Xss Bug http://hi.baidu.com/static/album/album.swf是百度推出的动感影集业务的主flash文件.对album.swf反编译后发现,该as脚本存在漏洞,可以导致xss

PZ


SOBB-05 Baidu Hi CSRF Bug 百度空间未严格验证referer,且其token验证失效,从而引发CSRF漏洞。结合其浏览访客记录,可引发CSRF蠕虫

menzhi007


SOBB-04 hi.baidu pet Dom-Xss Bug 百度空间的宠物插件对用户输入变量未经任何过滤便存储,并不经过滤输出,造成XSS

PZ


SOBB-03 hi.baidu profile Dom-Xss Bug 百度空间的一段Javascript Dom操作函数在操作DOM时考虑不周,导致可以通过构造一段特殊的HTML代码,使该函数对其进行DOM操作,重新渲染页面,最终导致XSS漏洞

PZ


SOBB-02 hi.baidu embed tag html injection bug 百度空间(hi.baidu.com)在使用embed标签没有指定type,导致在webkit内核下的浏览器可嵌入html代码

GreySign


SOBB-01 hi.baidu creatbgmusic() Dom-Xss Bug 百度空间的Javascript Dom函数creatbgmusic()在输出变量bgmusic*没有进行过滤,导致可以通过initBlogTextForFCK()函数构造容易HTML代码,最终导致xss漏洞

PZ


google寻人

这不是人肉。google apps里面有一个寻人工具,为玉树地震提供找人信息。

chinapersonfinder.jpg

这东西出现三十多个小时了,目前记录数还是0。看来没有人在用。

谷歌走了,目前中国的google用户少得可怜,这大概是没有人知道的原因吧。可惜百度却是断然不会做这种事情的。

我发到这里,希望更多的人能看到,能帮到需要帮助的人。

在灾区,有那么多的记者,他们会使用网络发回资料;有那么多的志愿者,他们会携带着笔记本把他们的经历写在博客上;还有更多更多和亲人失散的人,他们想要找到失踪的亲友。

那么,为什么不把网络利用起来,发挥人的力量,让更多的人安心呢。

路人假友情提示:善用网络,世界可以更美的。

有道说我是纯爷们

今天服务器挂了40多分钟,据说是某人的程序死循环了,万恶的WP插件啊,连我这种不用WP的都被牵连到鸟,5555~~~

最近喜欢在各搜索引擎上逛,上不了博客的时间我就跑去有道玩了,大家都知道有道有博客性别的吧?它说我是纯爷们!

路人假
100.0%男性倾向,0.0%女性倾向
   
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
有道搜索 | 博客男女

我还想看看它对大家都是怎么评价的呀,于是我就把友情链接里的各位都拿去测了一下,结果发现大家都差不多,都挺男人的嘛~除了。。。Skyoy。。。

聆听杂志
68.0%男性倾向,32.0%女性倾向
   
评点:不论语句的斟酌、信手拈来不拘俗套的观点,都给人一种豪情洒脱的形象,倜傥中有大丈夫气。
有道搜索 | 博客男女

嗯,你比较倜傥,很好很强大~