SEO优化之搜索引擎抓取策略类型

SEO优化之搜索引擎抓取策略类型:其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环,为了使系统可以抓取到尽可能多的有价值的资源,并保持系统及实际环境中页面一致性,同时不给网站体验造成压力,须设计多种复杂的抓取策略。

SEO优化之搜索引擎抓取策略类型-洋舰SEO

一、搜索引擎抓取友好性

互联网资源庞大的数量级,要求抓取系统尽可能地高效利用带宽,在有限的硬件和带宽资源下尽可能多地抓取到有价值的资源。

这就造成另一个问题:耗费被抓网站的带宽造成访问压力,如果程度过大,将直接影响被抓网站的正常用户访问行为。因此在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问,又能尽量多地抓取到有价值资源的目的。

通常,最基本的是基于IP的压力控制。因为如果基于域名,可能存在一个域名对多个lP(很多大网站)或多个域名对应同一个IP(小网站共享rP)的问题。实际中,往往根据IP及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调。

对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。

对同一站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也不同。例如,夜晚抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断调整。

SEO优化之搜索引擎抓取策略类型-洋舰SEO

二、常用搜索引擎抓取返回码

①最常见的404代表“NOTFOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条URL,也不会抓取。

②503代表“ServiceUnavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条URL直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条URL仍会被认为是失效链接,从库中删除。

③403代表“Forhidden”,认为网页目前禁止访问。如果是新URL,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录URL,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条URL也会被认为是失效链接,从库中删除。

④301代表“Moved Permanently”,认为网页重定向至新URL。当遇到站点迁移、域名更换、站点改版的情况时,推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

SEO优化之搜索引擎抓取策略类型-洋舰SEO



本文由石家庄SEO优化公司,石家庄洋舰网络科技有限公司提供。洋舰SEO是一个网站SEO优化推广平台。主营业务包括:石家庄乃至华北地区的SEO优化推广、SEO外包、网站建设和微信营销等业务。石家庄优化就找洋舰SEO
标签:  SEO基础  搜索引擎知识大全  SEO常见术语  SEO常见问题

最近更新
相关文章
热门分类
联系方式

手机:13032617377


电话:0311-87549496

qq号:28770128

微信:28770128


微信:13032617377


微信:yangjian-net

石家庄SEO微信二维码
  Powered by 石家庄SEO公司 & 石家庄建站公司 - 石家庄洋舰网络科技有限公司 。主营业务:石家庄SEO培训、石家庄优化推广、石家庄SEO外包、石家庄网站建设和石家庄微信营销。