标致软件下载

文章搜索: 分类 关键字
您的位置:首页精文荟萃搜索研究 → 用robots.txt探索Google Baidu隐藏的秘密
用robots.txt探索Google Baidu隐藏的秘密
日期:2006-12-12 21:37:02      人气:0     [ ]
上一页 [1] [2] 下一页
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。

  有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。

  有兴趣的读者可以看一下Google的robots.txt文件,注意到前几行就有“Disallow: /search”,而结尾新加上了“Disallow: /base/s2”。

  现在来做个测试,按照规则它所隐藏的地址是http://www.Google.com/base/s2,打开之后发现Google给出了一个错误提示:“服务器遇到一个暂时性问题不能响应您的请求,请30秒后再试。”

图1

  但是把s2最后的数字换成1、3或者别的什么数字的时候,错误提示又是另一个样子:“我们不知道您为什么要访问一个不存在的页面。”

图2

上一页 [1] [2] 下一页
出处:标致软件学院
 相关文章
·robots.txt 指南-介绍[翻译]
·用robots.txt探索Google Baidu隐藏的秘密
·robots.txt 指南-介绍[翻译]