搜索引擎要知道你的网站内容,就需要去搜集资料。在Yahoo的创办初期,有许多编辑天天泡在网上,访问新站,然后搜集信息集合整理成序。当时的网站没有现在这么多,所以还能做的过来。而现在的新站的出现数量,老站的更新都是爆炸式的,靠人工是不可能完成这个任务的。所以搜索引擎的就设计了程序,派他们来做这些工作。
探测器有许多种叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎排除的蜘蛛机器人爬行在互联网上探测新的信息。Google把这种探测器称为Googlebot,百度叫做Baiduspiderr,MSN叫做,MSNbot,而Yahoo则叫slurp。这个探测器实际上是人们编制的计算机程序,由它不分昼夜地进入访问网站,摘取网站内容、标签、图片等。然后依照搜索引擎的算法给他们制定索引。所以,这里说一下,它不是“爬行”而是光速访问的。
一个搜索引擎能够会同时派遣很多探测器。这些探测器或者从站长直接提交的URL去访问,或者由一个网络用户所装的搜索引擎工具栏(如Google工具栏)得知用户去的网站,或者是从一个网站中指向另一个站的链接过去。所以说探测器不一定是从网站的首页进入访问,为了引来搜索引擎就需要使用一些方法。
但是,探测器对许多的网站是不能完整抓取的,这个大多是由于网站设计没有按照搜索引擎探测器的思路来进行优化。比如说,如果一个网页比较大,探测器也只能截取网页的首部,而且只能跟着少量的链接走。Google目前能够吸收100KB的文件,Yahoo相对多一些。这些都可以通过实验来测试。将一个搜索关键词放在一个很长的网页(约150KB)中的尾部。然后看Google的cache说这个网页只有100KB,很显然,有一部分没有抓取到。
这个现象告诉我们网页的设计不要过大,过长。将一个较大的网页分为若干小的页面有以下几个好处。
1.可以使网页容易被探测器抓取。
2.更容易建立合理的站内链接关系。
3.每个页面可以更加集中关键词的主题。
4.减少服务器的负载。
5.对用户来说,方便阅读。