Google 的爬虫到底能不能遍历我的站内所有页面?这是个问题。假设能遍历到每个页面,对于Google Spider来说是一件很辛苦的工作。于是Google把一部分工作量转移给WebMaster——建立符合标准的GoogleSitemap。(这的确是对双方都有好处的想法)
Google SiteMap Protocol是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。
Sitemaps服务旨在使用Feed文件sitemap.xml通知Google的Crawler(爬虫)网站上哪些文件需要索引、这些文件的最后修订时间、更改频度、文件位置、相对优先索引权,这些信息将帮助Google Crawler建立索引范围和索引的行为习惯。
Sitemap的作用就好像为网站提供了整站的RSS,而google就是这些RSS的订阅者,只要网站有更新就会自动通知google。
Sitemap的最終目的在提高所有網頁被找到的速率。
Google倡议站长们利用Sitemaps技术与搜索引擎形成积极互动的协作关系,真正参与到搜索引擎的索引页面缓存的建立中来,改变爬虫机械式的重复工作模式,使搜索引擎能返回更准确有效的的结果,同时也可以有效地减少带宽的消耗以及服务器的压力,提高互联网的效率。
sitemap文件必须包含几个主要的描述性标记:
changefreq — 文件更改频度,可以是always/hourly/daily/weekly/monthly/yearly/never中的任意一个值
lastmod — 文件最后被修订的时间,必须是遵循ISO 8601规范的时间戳格式,比如2005-06-04或2005-06-04T02:20:30+08:00
loc — 文件通用资源定位符地址,呵呵,就是URL网址,绝对地址
priority — 相对于同一站点上其他文件的被索引的优先权,值域0.0~1.0,默认值是0.5
url — 用来包围以上四个标记
urlset — 用来包围以上五个标记
分解讲解这个xml文件的每一个标签:
1.
这一行定义了此xml文件的命名空间,相当于网页文件中的标签一样的作用。
2.
3.
用
4.<lastmod>2005-06-03T04:20:32-08:00
年:YYYY(2005)
年和月:YYYY-MM(2005-06)
年月日:YYYY-MM-DD(2005-06-04)
年月日小时分钟:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37+08:00)
年月日小时分钟秒:YYYY-MM-DDThh:mmTZD(2005-06-04T10:37:30+08:00)
这里需注意的是TZD,TZD指定就是本地时间区域标记,像中国就是+08:00了
5.
6.
7.还有
关于:计算机模拟,模型,程序,仿生学
关于:朱德,十大元帅,中国革命
2006/10/01 23:46 | by