您的位置: 首页 > 新闻资讯 > > 正文

爬虫遇到过什么陷阱?

发布时间:2020年12月16日 来源:互联网

    有些小白可能在初次爬虫时有很多不太了解的地方,导致频繁踩坑,下面给大家总结了几种小白在爬虫爬取过程中可能会遇到的问题。希望大家看完之后能够少走点弯路。


爬虫遇到过什么陷阱?


    (一)请求下来的HTML中文编码问题


    import requests


    from bs4 import BeautifulSoup


    res = requests.get(newsurl)


    soup = BeautifulSoup(res.text,"lxml")


    news_item = soup.select(".news-item")print(news_item[0].select("h2")[0].text)


    结果:


    ??????é?¨??????è?????????±??????? é????é??


    解决办法


    import requestsfrom bs4 import BeautifulSoup


    res = requests.get(newsurl)


    soup = BeautifulSoup(res.text.encode(res.encoding).decode('utf-8'),"lxml") #添加编解码


    news_item = soup.select(".news-item")print(news_item[0].select("h2")[0].text)


    (二)爬虫长时间运行报错


    urllib3.exceptions.ProtocolError: ('Connection aborted.', ConnectionResetError(54, 'Connection reset by peer'))


    解决办法一,设置请求头user-agent:


    headers = requests.utils.default_headers()


    headers['User-Agent'] = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'


    #headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.167 Safari/537.36'


    r = requests.get('https://academic.oup.com/journals', headers=headers)


    解决办法二:更换ip地址


    (三) UA(用户代理)欺骗


    UA,即 User-Agent,是Http协议的一部分,属于头域的组成部分,发送 http 请求时,请求头中会有 User-Agent字段。服务器通过该字段来分辨发送请求的浏览器类型、版本、内核以及操作系统信息等。在浏览器 console 可用如下命令来获得该浏览器的 UA 标识:


    navigator


    .userAgent


    每当你访问一个网站,它会通过 UA(用户代理)来获取你浏览器的信息。你在有些网站上 看不到任何内容,除非你提供一个用户代理。另外,网站对不同的浏览器展示不同的内容。网站不希望屏蔽真正的用户,当如果你用同一个用户代理每秒发送两百个请求的话,你的行为看起来会非常的可疑。一种可能的解决方法是生成随机的用户代理或自己设置一个。有时候通过手机浏览器访问得到的页面会更加简洁,更容易抓取,所以伪装成手机浏览器也是一种好方法。


    当然也有一些未列举出来的问题,大家以后在爬虫爬取过程中有可能还会遇到多种多样的问题,在遇到问题时及时记录下来,也能方便以后的查阅,建议多和爬虫大神交流获取一些心得。


相关文章内容简介

1 代理IP不仅仅解决网络限制

    代理IP不仅仅解决网络限制,很多人都知道使用代理IP可以解决网络的限制问题,例如注册帐号、访问外国网站、软件等。这是代理IP的主要用途,但其实还有很多用途供我们使用。    代理IP不仅仅解决网络限制    1.加快下载速度。有部分网站对下载是有限制的,例如限制一个IP只能下载一个,出现这样的情况可以通过代理IP工具,同时多IP一起下载了。    2.隐藏真实IP。代理IP开启后,真正的IP会被代理IP完全隐藏,这样保证了上网及个人信息的安全。    3.共享上网。通过代理服务器,可以对局域网有线宽带加以利用,提高内网用户的上网速度。同时还可以当做防火墙,保护内网的安全。    通过以上的介绍,相信大家都了解了代理IP的用途有很多。万变ip代理IP覆盖全国多城市,IP可用率高达97%,还可以自动切换IP,操作简单,再也不用担心IP被封的困扰。... [阅读全文]

2 私密代理ip适合大众使用吗?

    私密代理ip适合大众使用吗?其实私密代理而且这种http代理ip资源在之前的人们耳中并不时常听到,随着时代的发展,他开始在人们的生活中活跃起来,越来越多的人开始对它有所了解。    如今信息非常的发达,科技的发展也日新月异,人们借助科技的发展和信心为自己的生活也带来了很多改变。但是在社会发展越来越好的时候,由于人们对信息的广泛使用,会出现泄露信息的一些现象。    人们在使用互联网的过程中,自己的照片或者是银行账号等,都有可能在不经意间泄露出去。那么我们应该如何改变这一现象的发生呢?这个时候我们就可以借助私密代理ip了。    那是很多人肯定都了解到了,HTTP代理IP服务都非常贵,只有一些大公司或是大企业才能负担得起费用,因此很多大众都对于这个平台望而却步。或许这也是万变云私密代理ip上市不久就受到了很多人欢迎的原因,这个平台按照使用的次数来收费,为大众节省了不少费用的同时才能很好地保护大家的隐私。... [阅读全文]

推荐阅读

  1. 08

    2020-07

    不同代理ip有什么差距?

    现今对代理IP的需求量越来越大,有需求就会供给。因此市面上代理IP非常多,选择的范围很广。这样有利有弊,好处在于可以货比三家,挑到自己满意的IP代理商,坏也坏在选择太多了,容易挑

  2. 13

    2021-01

    ip代理匿名度高是什么原因?

    很多人在选择 代理服务器 时,都会推荐使用 万变 ip代理 ,匿名度高,是什么原因?那将从万变ip代理的匿名度开始。透明化的代理意味着客户机根本不需要知道有代理服务器存在,但它仍然在

  3. 23

    2020-12

    爬虫如何获取代理IP资源?

    目前信息采集工作都是通过爬虫来完成的,爬虫想要采集庞大的数据信息就得靠代理IP来帮助完成,我们都知道代理IP的功能是十分强大的,它可以突破反爬虫IP限制,隐藏你的真实IP。那么一般

  4. 24

    2021-02

    网络http代理该怎么选择?

    网络 http代理 的选择一直是困扰许多用户的问题,因为每个人都不想选择不好的 ip 软件。目前,许多服务提供商直接在互联网上抢占知识产权资源,风险很大。

  5. 22

    2019-10

    营销人员如何选择高匿代理ip?

    虽然说电商事业发展的越来越快,但是在整个电商大行业下,还是分有很多类的。近几年兴起的电商和传统的淘宝行业还是不同的。因为淘宝处在一个被动的位置,不需要淘宝大肆宣传也会有客

  6. 29

    2019-11

    使用不正规的IP代理服务器有什么危害?

    当我们需要隐藏自己的 真实ip 时,可以利用市面上出售的 代理服务器 代理ip ,这样我们自己的IP就像被了一层外衣一样,被安全的包裹在里面让一般人无法察觉。

因为专业! 所以简单! 产品至上,价格实惠 是我们服务追求的宗旨

免费试用