Board logo

标题: 两个最常见的“404错误”以及解决方法 [打印本页]

作者: 网普科技     时间: 2009-6-5 11:41 AM    标题: 两个最常见的“404错误”以及解决方法

http://www.netpu.net
网普科技版权所有,转载请注明作者和出处并保持文章原貌
(网普科技优质廉价美国主机、美国LINUX虚拟主机服务)

原文地址
http://bbs.netpu.net/viewthread.php?tid=3534

404错误简介

404错误指的是访问页面时返回的http状态码(http status code)为404。
按照http状态码的分类,4xx为客户端错误(client error),具体到404,指的是找不到符合客户端请求的内容(The server has not found anything matching the Request-URI. )。

有关http状态码(http status code)的更多信息,
可以参考以下文章:《技术FAQ:HTTP状态码(HTTP Status codes)简介》
文章地址:http://bbs.netpu.net/viewthread.php?tid=2950

问题提出

最近有客户咨询我们,他的站点错误记录中发现一些奇怪的记录
CODE:  [Copy to clipboard]
这是两个比较常见的404错误,想弄明白这两个错误是如何发生的,首先需要了解一下robots.txt以及favicon.ico分别是什么东西。

先说robots.txt

大家都知道搜索引擎,搜索引擎使用程序自动遍历整个站点来索引页面。我们通常把这类程序叫做web robots(或者 Web Wanderers, Crawlers, or Spiders)。

我们可以通过/robots.txt文件来指示web robots的动作(包含但不限于禁止web robot访问某些内容)。这个叫做”The Robots Exclusion Protocol“。

简单地说,它的工作方式大致如下:
1:web robot欲访问一个站点上的内容
2:web robot首先访问站点根目录的robots.txt文件
3:web robot分析robots.txt中的指令
4:web robot根据指令去访问站点内容


由此可见,搜索引擎的爬虫访问站点前,首先访问的是robots.txt文件。
如果您的站点上没有这个文件,那么就会产生404错误喽。

知道了原因,解决方法也很简单
放置一个robots.txt文件到public_html目录下。


最简单的robots.txt文件包含两条规则
    * User-agent: 指示以下的规则应用到哪种robot
    * Disallow: 您想屏蔽的URL

如何创建手工robot.txt文件可以参考文末资料。
这是另外一个复杂的话题,这里就不再多说了。

再说favicon.ico

favicon (favorites icon的缩写),也叫网站图标(website icon)、 快捷方式图标(shortcut icon)、URL图标(url icon)或者书签图标(bookmark icon),是指与web页面关联的方形图标。

大家可以打开一下以下页面
http://www.netpu.net
http://www.cnsw.org
http://www.baidu.com
观察一下标签栏以及地址栏前边的小图标,没错就是这个东西。

浏览器在请求页面时,如果页面中没有指定使用icon,那么默认就是使用根目录下的favicon.ico。


所以如果您的站点目录中没有favicon.ico,那么浏览器请求您的站点时,就会产生一个404错误。
解决方法也很简单,做一个favicon.ico,放到网站的根目录,就搞定了。


同样,关于favicon.ico也是一个复杂的话题,我们这里仅仅是简单说了一下。
如果大家对这个有兴趣,可以参考一下文末的参考资料。

结束语

外行装内行,写这些东西仅为解决用户遇到的问题,以及抛砖引玉。
如有错漏之处,望诸位朋友不吝赐教。

参考资料
http://www.robotstxt.org/
http://en.wikipedia.org/wiki/Robots_Exclusion_Standard
http://www.google.com/support/we ... en&answer=35303
http://www.google.com/support/we ... en&answer=40360
http://en.wikipedia.org/wiki/Favicon
更多的资料大家google吧,呵呵

http://www.netpu.net
网普科技版权所有,转载请注明作者和出处并保持文章原貌
(网普科技优质廉价美国主机、美国LINUX虚拟主机服务)
作者: 网普科技     时间: 2011-3-27 07:46 PM
3步添加robots.txt 到网站

(1)打开记事本,复制以下内容:
CODE:  [Copy to clipboard]
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /files/
Disallow: /download/
Disallow: /private/
(2)根据需要进行修改,保存为:robots.txt

(3)上传 robots.txt 至网站根目录(public_html)下




欢迎光临 网普技术论坛 (http://bbs.netpu.net/) Powered by Discuz! 2.5