反爬虫的主要工作?
的有关信息介绍如下:(1)主动型反爬虫:开发者有意识地使用技术手段区分正常用户和爬虫,并限制爬虫对网站的议问行为,如验证请求头信息、限制访问频率、使用验证码等。
(2)被动型反爬虫:为了提升用户体验或节省资源,用一些技术间接提高爬虫访问难度的行为比如数据分段加载、点击切换标签页、鼠标悬停预览数据等。
(3)除此之外,还可以从特点上对反爬虫进行更细致的划分,如信息校验型反爬虫、动态渲染型反爬虫、文本混淆型反爬虫、特征识别型反爬虫等。需要注意的是,同一种限制现象可以被归类到不同的反爬虫类型中,比如通过JavaScript 生成随机字符串并将字符串放在请求头中发送给服务器,由服务器校验客户端身份的这种限制手段既可以说是信息校验型反爬虫,又可以说是动态渲染反爬虫。
反爬虫不仅要了解网站流量情况,还需要了解爬虫工程师常用的手段,并从多个方面进行针对性的防护。反爬虫的方案设计、实施和测试等都需要耗费大量的时间,而且往往需要多个部门配合才自完成。从这个角度来看,除了技术难度外,时间成本也是非常高的。