网络爬虫是什么工作原理,如何展开工作?
我们可以将庞大的互联网比喻成一张一望无际的网络蜘蛛网,而爬虫就是在蜘蛛网上爬行的蜘蛛,把网的节点形容成为网页,我们将任务需求通过客户端电脑发出命令,而ip就是被执行的角色,ip带着任务通过因特网到达终端服务器去寻找客户端交代的任务,一个个节点就是一个个网页,这样蜘蛛通过一个节点之后,就可以顺着几点连线继续爬行到达下一个节点。(通俗的说就是顺藤摸瓜),也就说通过一个网页继续获取。
爬虫首先就是需要获取终端服务器的网页,也就是从那里获取到网页的源代码,源代码包中获取到有用的信息,就将有用的源代码获取下里,提取到任务中所需的信息。
ip将获取到有用的信息返回到客户端存储,然后再返回去,反复频繁的访问获取信息直到完成任务。所以ip就是负责带着任务去寻找有价值的信息,然后将获取到的有价值的信息数据负责运回(传输)到客服端,直到完成任务。