搜索引擎的蜘蛛

蜘蛛为避免重复抓取网址,它会生成一个地址-库,记录地址-库-服务中,记录还没抓取的页面,蜘蛛根据抓取的内容,做分词处理,按照算法对文章进行索引编号,存在自己的服务器上,用户进行搜索的时候,按照一样的规则显示出来 。

蜘蛛又称为爬虫,只是叫法不一样。可理解为:搜索引擎的一个程序。搜索引擎程序(以下称为蜘蛛,它到了你的网站,去到爬行,然后把结果反馈给搜索引擎服务器。蜘蛛在爬行网站的时候,最先检测网站根目录下的robots文件,因为蜘蛛都会遵循这个原则,蜘蛛会检测你robots下的文档里有哪些东西允许抓取,有哪一些不允许抓取。通常,只要在robots文档里,一个星期左右的时间才会生效。

蜘蛛根据网站robots文件允许收录的网站,根据网站的链接开始爬行,蜘蛛会一沿着一个接一个往下爬,为避免程序问题,通常蜘蛛抓取的深度为5层以上。在做网站优化过程中,蜘蛛一直沿着链接抓取。以前强调锚文本的重要性,在这里可以发挥出它的效果,每抓取一次,就给下我们网站的权重。

随机展示

猜你喜欢