蜘蛛陷阱

蜘蛛陷阱的两层含义:A、蜘蛛在爬行网站时,遭遇到一些让蜘蛛程序无法正常收录页面或继续爬行的障碍,通常是非故意为之的;B、使用技术手段,让蜘蛛无法按正常目录爬行抓取原目的网站相关页面,而将蜘蛛引入到预设好的页面或网站,干扰蜘蛛判断网页内容等相关指标值,通常是黑-客等获益人故意为之。

蜘蛛程序爬行网站时遇到障碍的几个问题.1、避免蜘蛛被排除在可访问资源的人群之外。产生原因:只给特定人群访问权限,如只让已登陆或输入了正确密码的人能访问到,或要求用户有cookies才显示内容。被排除在可访问人群之外的蜘蛛程序就无法获取到资源内容。2、避免让蜘蛛获得的url不正确或不规范。3、避免让蜘蛛被重定向弄的晕头转脑。一些网站就会使用重定向技术,将旧地址重定向到新地址。4、避免出现目前蜘蛛不善于处理的资源形式。5、避免让蜘蛛遍历层次过深。产生原因:内容分类过多或过细,可能会分到4级以上,有几百甚至上千栏目,而一个页面的链接放置数是有限的,一些分类或栏目的链接不得不从首页点5次以上才到达。6、避免错误配置文件妨碍蜘蛛爬行。产生原因:网站配置UA访问权限,可能会配置不当而禁止了蜘蛛的正常爬行;网站配置IP访问权限,而误禁了部分蜘蛛IP;网站配置防刷新机制,而妨碍了蜘蛛爬行;网站配置robots等相关文件,而误禁止了蜘蛛对某些目录或文件的正常爬行。

蜘蛛抓取爬行时被有意干扰的几个问题。1、页面中被JS等形式放入一些黑链。2、页面被meta reresh,js等跳转到其他站点或页面。3、页面被js等蜘蛛较难识别的形式嵌入一些内容。4、网站被加入一些不相干的文件夹内容。产生原因:一些网站管理者关注的是前台页面以及后台功能,没有关注到网站在搜索引擎的收录页面及关键词排名情况。于是获益人就在网站中加入一些不相干的文件夹内容,再通过站群等手段,将这些不相干内容的大力推广,于是这些url就被收录并且排名十分好。5、在不同的UA下显示不同的内容。产生原因:通过识别访客的user-agent,让蜘蛛看到的是一个正常页面的内容,而让普通用户点击进入网站后看到的是另一个页面。

随机展示

猜你喜欢