搜索引擎优化(SEO)学院

首页 | 长江三峡旅游 | SEO学院 | SEO资料 | SHOP | 学院地图 | 服务承诺 | RSS
SEO技术

众里寻她千百度,蓦然回首,却是一头笨猪

由于网站的历史遗留问题,网站存有大量动态url地址(如info_list.php?),而且参数非常混乱。动态url地址由于存在时间较长,已被搜索引擎大量收录,存于搜索引擎的索引数据库中,且有了很高的权重。
使用webtrends对日志进行了spider爬行分析得出,这些动态url地址有很高的排行优先权,多次都是spider通过这些动态url从数据库中直接爬行至网站,进行抓取。由于spider是通过如info_list.php?此类动态页面爬行至此,在抓取的过程中spider一直在动态网页中循环抓取(因为参数比较混乱,spider会根据参数排列逻辑自己排列组合进行抓取,且不是返回404,所以导致了动态页面无穷多,严重浪费了spider的抓取效率),无法抓取到网站的伪静态页面。
对此情况采取了以下措施:
1、对全站url进行静态化处理,限制不同参数的排列组合,固定参数非正确的排列组合返回404.
2、对静态化的页面进行META规则制定,每个页面拥有自己独立的META信息,避免造成这些页面被收录后,在索引数据库中本站关键词竞争,可以突出重点词。
3、制作静态化页面sitemap.xml,且通过robots.txt屏蔽各个动态目录。
4、通过google管理员工具删除已存在于google索引数据库中的动态url地址,可以删除整个动态目录。
通过以上方法,经过约1个月时间,目前google.com索引数据库中动态url地址已全部删除。site:该目录以为0.通过webtrends对日志spider爬行的分析,目前已经批量抓取静态页面。原有排名的动态url页面,已被静态页面取代。spider抓取、索引数据库中的静态页面排名已趋于正常。
通过此次操作,又再次体会出google.com比baidu.com智能的多,其中最重要一点包括google.com可以通过管理员工具很方便的与站长沟通,即能帮助站长解决问题又能节省自己的spider抓取资源。而百度呢?baiduspider根本就不能控制,乱抓。也不明白站长的意思。技术含量极低……排序规则、更新规则中又夹杂着n多人为因素。

众里寻她千百度,蓦然回首,却是一头笨猪。

http://home.donews.com/donews/article/1/129237.html

众里寻她千百度,蓦然回首,却是一头笨猪
搜索引擎优化(SEO)学院内相关文章
• 要做网赚,先做网站
• 梁冬:那一些俯视人类欲望的人
• SEO操作:论坛的作用
• 英文SEO和中文SEO的6点差异
• 百度推广经验
• 优化策略之大型网站
• 几个著名B2B网站优缺点比较以及搜索引擎的介绍
• 2009年中小企业整合网络营销七大策略
• 产品搜索可能更有前途
• Google PageRank(网页级别)介绍
©2008 搜索引擎优化(SEO)学院
搜索引擎优化 SEO Feed Sky