在前天的新英格兰搜索引擎营销会议上,Google 抓取系统部门总监Dan Crow 透露了许多有关Google 搜索引擎索引网站方面的信息。搜索引擎周边根据Jill Whalen 的总结,选取部分“猛料”摘录如下。

Google 搜索引擎爬虫索引网站的过程
一般来说,Google爬虫会先查看网站根目录robots.txt 文件,由此来决定爬行哪些目录,之后才开始抓取robots.txt中允许的页面,最后才顺着当前页面的链接爬行到其他页面。令人咋舌的是,搜索引擎爬虫评价某个页面的因素竟然有200个之多,而“相关性”则是其中的一个重要因素。

关于PageRank
Dan 说,PageRank 在Google 索引结果的排名中仍然具有非常重要的作用。需要注意的是,这里所说的PageRank 并非Google 工具条上看到的PR 值,而是指Google 内部使用的PageRank

即将支持的标签:unavailable_after
搜索引擎周边曾经介绍过一些有用的Google 爬虫支持的常用Meta标签。这一次,Dan 提前透露了一个Google 爬虫即将支持的标签——unavailable_after。通过它可以告知搜索引擎爬虫在什么时间之后不要再索引某个页面。如果网页上的内容具有实效性,unavailable_after标签将非常有用。

关于网站地图文件Sitemaps
网站的Sitemaps文件有助于网站页面被Google 索引,但由于Sitemaps 的PR 值往往很低,所以目前在Google 搜索引擎中的权重还相对较低。不过,Dan 承诺,这一现象在以后将会有所改变。

对于Flash网站与使用Ajax呈现内容的网站,一如英文Google webmaster blog所说,Dan 建议在页面上使用sIFR 排版技术。

关于Google补充材料
Google 将会更频繁的索引被标记为补充材料的网页。在Google 搜索结果页面,尽管补充材料页面在目前来说排名要靠后于正常的索引页面,但两者之间的差别将会越来越小。要使自己的网页走出补充材料的最根本方法就是增加该页面的外链。在这方面,散人建议参考月光翻译的《逃离Google补充材料的五个技巧》。

原载于 搜索引擎周边
Tags:
Google专区 | 评论(3) | 引用(0) | 阅读(9260)
散人 Homepage
2007/08/01 14:45
Sangern,你好。转载鄙站的文章请按照版权说明以超链接的形式注明原文地址,并保留原文中的链接。
大家都是搜索引擎爱好者,忘理解。
散人 Homepage
2007/08/01 14:45
这是原文地址:
http://www.eryi.org/SearchEngines/google-robots-crawler.html
大海 Homepage
2007/08/12 20:38
顺便学习以下。让搜索引擎收录并排在前面不好办。
分页: 1/1 第一页 [1] 最后页
发表评论
表情
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
昵称   密码  
网址   电邮   [注册]
               

验证码 请输入左侧的字母,不区分大小写