首页 > 代理IP资讯 >

为什么用了代理IP做爬虫还是被识别？

作者：admin 来源：未知发布时间：2020-03-30

　　“封IP是不可能封IP的，这辈子都不可能封IP的，左手高匿代理IP，右手优质爬虫程序，没有什么能够阻挡，我对高效工作的向往”，一个爬虫工作者如此骄傲的说。然而，理想很丰满，现实很骨感，爬不过三秒，提示错误：已被识别为爬虫。

　　他很郁闷，他问我：是不是我本机IP被泄露了，是不是你们IP有问题？我说，您需要研究下对方的反爬虫策略。他说：我不需要反爬虫，我有代理IP，我有优质程序，为什么会不成功？！

为什么用了代理IP做爬虫还是被识别？

　　我无言以对，只好让他用浏览器设置代理IP做测试访问目标网站，结果是正常的，他这才明白，原来爬虫没有那么简单。

　　对于没有反爬虫策略的目标网站来说，爬虫其实很简单，对于有着比较复杂的反爬虫策略的目标网站来说，爬虫并没有那么简单，而对于反爬虫策略不断升级的目标网站来说，爬虫策略也得跟着不断升级，否则只能淘汰出局。

　　什么是反爬虫策略呢？这是目标网站为了缓解服务器压力阻止爬虫无休止地请求服务器，影响到正常的用户访问网站，同时也是为了防止爬虫爬取信息做些不利于自己的事情的一种策略。一般网站都会有反爬虫策略，毕竟服务器资源是有限的，不停地请求服务器，会造成服务器缓慢甚至崩溃，其他正常的用户访问网站就会打不开。

　　所以，爬虫策略要尽量的模拟用户正常的访问网站的行为，研究对方的反爬虫策略，然后通过使用代理IP，完成日常的爬虫工作。

返回栏目在线QQ咨询

上一篇：怎么选择好用又合适的代理IP
下一篇：哪种代理IP符合爬虫使用

相关文章