您的位置: 业余站长网>>网站运营>>搜索引擎>> 知己知彼之搜索引擎索引过程

知己知彼之搜索引擎索引过程

发布时间:2008-04-29 | 来源:业余站长网

这是天刃在“网站推广&SEO”群里针对一些站长对蜘蛛多次检索自己的网站却一直不收录,以及自己网站日志中发现有多个蜘蛛爬自己的站的问题,做的一些详细解答。经天刃同意我把其中的内容整理后发布,呵呵,应该也算原创啊!

搜索引擎的蜘蛛抓取页面的一般过程是这样的。

首先,收集待索引网页的url。

搜索引擎的蜘蛛一般分为两类,这第一类的主要工作就是收集网页的中有效的URL。它们的任务是一刻不停地扫描Internet资源,以随时更新其搜索引擎庞大的url列表以供它的第二类蜘蛛使用。也就是说,当这一类蜘蛛访问我们网页的时候,并不在于索引我们的网页,而是在寻找网页中的所有有效链接。

关于有的站长在自己的访问日志中发现多个蜘蛛IP爬自己站的情况。

我们常用的搜索引擎每天要处理数以亿计的信息,没有一个大型的搜索引擎公司(GOOGLE或百度之类)不配备上万台服务器来共同执行这个工作,因此搜索引擎都拥有不同的数据中心,也就是说有多个robots来检索你的站是很正常的事情。不过这也仅限于第一类蜘蛛,在索引页面的时候,搜索引擎会限制某个特定的数据中心来让专门索引页面的蜘蛛检索你的站。因此朋友们从服务器访问日志中时常可以看到源自不同IP的蜘蛛,在很短的时间内频繁访问网站。不过千万不要高兴得太早,也许其根本不是在索引你的网页而只是在扫描url。

顺便贴几个百度几个常用的蜘蛛IP

15 220.181.19.

16 159.226.50

17 202.108.11

18 202.108.22

19 202.108.23

20 202.108.249

21 202.108.250

22 61.135.145

23 61.135.146

补充一下,第一类蜘蛛索引时记录的信息主要包括网页的url、最终修改时间等。

原yesky编辑问: 我认为蜘蛛爬取后,不能立即在搜索中体现,是cache与内容筛选工作的缘故。不同的站有不同的权重,这个时间也会不一样。最典型的是yesky的站,权重高,yesky首页上的链接,早上新增,下午就可以在百度中搜索列表中体现出来。

当然不可能内容抓取后便立即体现,就像你前几天说的,在页面索引后有一个释放的过程。

问:还有个现象就是,很多小站,见蜘蛛爬了新页面,短期在搜索列表中是搜索不到的。但是在搜索引擎的cache服务器中,却可以搜索到。

对于一些小站的网页而言,只要第二类蜘蛛开始索引网页了,即使整个收录过程还没有完成,相应的网页便有了出现在搜索引擎索引库中的可能,比如我们在查询我们网站收录情况的时候,常常看到标注为补充结果只显示网页的url或有的只显示网页标题与url但没有描述的页面,这就是处于这一阶段网页的正常结果。当搜索引擎真正读取、分析、缓存了这个页面后,它便可以从补充结果的缓存出来显示正常的信息了。

Tag:过程 索引 搜索引擎 蜘蛛 网页 页面 url 搜索 自己 我们 责任编辑:AdminYY QQ:1026811

上一篇:百度-搜索引擎排名规则

下一篇:看卖空间的如何强奸百度

    评论加载中…
业余站长网
业余站长网部分内容来源于互联网或网友发布,如果侵犯了您的版权,请联系我们本站将在3个工作日内删除。套用本站设计风格者请保留本站的链接。
Copyright © 2008 www.AdminYY.com 业余站长网 版权所有 Template designed by ququhu.
业余站长网 7X24信息热线:13426446586 内容监督投诉反馈E-Mail:qqhuaa@163.com 站长:AdminYY. QQ:1026811
法律顾问:ITlaw-郭俊峰 [京ICP备07013941号] 趣趣虎 []