HTTP代理对Python爬虫的详解-万变ip

您的位置：首页 >文章内容

HTTP代理对Python爬虫的详解

来源：互联网作者：admin 时间：2021-03-22 10:46:32

在FOAF社区中，也叫网络蜘蛛和网络机器人，通常被称为“网络追踪者”的程序和脚本会根据规则自动捕获网络信息。

假如把因特网比作一个巨大的蜘蛛网，那么电脑上的数据就是蜘蛛网上的猎物，而爬虫程序则是一个小小的蜘蛛，它沿着蜘蛛网捕捉到需要的猎物/数据。

基本的爬虫程序：

发起请求，获得响应内容，分析内容，保存资料。

起始需求：请求。

首先需要的是使用http库来请求目标站点，即发送Request。

请求对象的功能是与客户机交互，为表单、工具箱、超链接或服务器收集环境变量。

向服务器发送来自客户端的请求，包括用户提交的信息和客户端信息。用户可以通过HTML表单或站点后面的参数提交数据。

接着，服务器通过quest对象的相关方法获得数据。在客户端浏览器提交的请求中，有许多方法可以处理参数和选项。

第二，获取回应内容。

爬行器发送请求时，如果服务器能够正常响应，它就会得到响应，即响应；

响应信息包括：html,json，图片，视频等等。如无错误，请查看网页的基本信息。

三是分析内容。

解析html数据：解析html数据的方法包括正则表达式和Beautifulsoup、pyquery等第三方分析库。

json数据分析：可以使用json模块进行json数据分析。

解析二进制数据：文件格式为b。

四是数据保存。

被捕获的数据作为文件存储在本地或直接存储在数据库中。可能的数据库有MySQL,Mongdb,Redis,Oracle等等。

以文字记录

爬行的总体过程可以理解为：蜘蛛需要抓到一个猎物->沿着蜘蛛丝去寻找它->吃它；也就是说，爬->分析->储存。