网络爬虫是什么?-万变ip

您的位置：首页 >文章内容

网络爬虫是什么?

来源：互联网作者：admin 时间：2020-06-17 10:55:18

大数据时代的到来离不开互联网的日渐发展壮大，如何才能在海量的数据中自动高效的找到需要的信息成为互联网用户想要解决的重要问题，爬虫技术应运而生。

网络爬虫（web crawler）也叫网页蜘蛛，网络机器人，是一种用来自动浏览万维网的程序或者脚本。根据系统结构和实现技术，可以分为：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。

1. 通用网络爬虫：

它主要为门户站点搜索引擎和大型 Web 服务提供商采集数据，这类爬虫对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，缺点在于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。

3. 聚焦网络爬虫：

是选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。这类爬虫的优点是极大地节省了硬件和网络资源，保存页面数量少更新快。

4. 增量式网络爬虫：

指对已经下载页面采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，能够在一定程度上保证所爬行的页面是尽可能新的页面。他不会重新下载没有更新的页面，这就意味着可以有效减少数据下载量，减少时间和空间的消耗，及时更新已爬行的网页。

1. 深层网络爬虫：

是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。比如说有些网页需要用户注册之后内容才可见。

希望经过上面的介绍，大家能对网络爬虫有一个基本的了解。