蜘蛛陷阱

蜘蛛陷阱的两层含义：A、蜘蛛在爬行网站时，遭遇到一些让蜘蛛程序无法正常收录页面或继续爬行的障碍，通常是非故意为之的；B、使用技术手段，让蜘蛛无法按正常目录爬行抓取原目的网站相关页面，而将蜘蛛引入到预设好的页面或网站，干扰蜘蛛判断网页内容等相关指标值，通常是黑-客等获益人故意为之。

更多：【SEO优化基础知识】More…
日期：2023/3/4 11:29:12

蜘蛛程序爬行网站时遇到障碍的几个问题.1、避免蜘蛛被排除在可访问资源的人群之外。产生原因：只给特定人群访问权限，如只让已登陆或输入了正确密码的人能访问到，或要求用户有cookies才显示内容。被排除在可访问人群之外的蜘蛛程序就无法获取到资源内容。2、避免让蜘蛛获得的url不正确或不规范。3、避免让蜘蛛被重定向弄的晕头转脑。一些网站就会使用重定向技术，将旧地址重定向到新地址。4、避免出现目前蜘蛛不善于处理的资源形式。5、避免让蜘蛛遍历层次过深。产生原因：内容分类过多或过细，可能会分到4级以上，有几百甚至上千栏目，而一个页面的链接放置数是有限的，一些分类或栏目的链接不得不从首页点5次以上才到达。6、避免错误配置文件妨碍蜘蛛爬行。产生原因：网站配置UA访问权限，可能会配置不当而禁止了蜘蛛的正常爬行；网站配置IP访问权限，而误禁了部分蜘蛛IP；网站配置防刷新机制，而妨碍了蜘蛛爬行；网站配置robots等相关文件，而误禁止了蜘蛛对某些目录或文件的正常爬行。

蜘蛛抓取爬行时被有意干扰的几个问题。1、页面中被JS等形式放入一些黑链。2、页面被meta reresh，js等跳转到其他站点或页面。3、页面被js等蜘蛛较难识别的形式嵌入一些内容。4、网站被加入一些不相干的文件夹内容。产生原因：一些网站管理者关注的是前台页面以及后台功能，没有关注到网站在搜索引擎的收录页面及关键词排名情况。于是获益人就在网站中加入一些不相干的文件夹内容，再通过站群等手段，将这些不相干内容的大力推广，于是这些url就被收录并且排名十分好。5、在不同的UA下显示不同的内容。产生原因：通过识别访客的user-agent，让蜘蛛看到的是一个正常页面的内容，而让普通用户点击进入网站后看到的是另一个页面。

随机展示

蜘蛛陷阱

猜你喜欢