您的位置: 首页 > 新闻资讯 > > 正文

代理IP识别技术方案探讨

发布时间:2020年01月16日 来源:互联网

    用户通常通过代理来突破限制,如局域网对上网用户的端口、目的网站、协议、游戏、即时通讯软件等的限制,网站对于IP的访问频率、访问次数的限制等;另一方面,通过代理也可以隐藏用户的真实身份。黑客的很多活动都是通过代理服务器,对局域网内机器进行渗透;不法分子也越来越多地使用代理隐藏身份,从而进行欺诈交易。随着线上交易的增加,这种方式的欺诈交易也逐日递增。本文将结合业务实际需求,探讨代理检测可行的技术方案。


    一、 什么是代理


    11.1 代理简介


    代理,也称网络代理,是一种特殊的网络服务,允许一个网络终端(客户端)通过这个服务与另一个网络终端(服务器)进行非直接的连接。


    代理可以分为HTTP代理、SOCKS代理、VPN代理以及其他类型的代理。本文针对HTTP代理进行讨论。


    图1 代理原理图


    图1来自《HTTP权威指南》,直观地表达了HTTP代理的基本原理:客户端向代理发送请求报文,代理服务器需要正确地处理请求和连接(例如正确处理 Connection: keep-alive),同时向服务器发送请求,并将收到的响应转发给客户端。


    21.2 代理的级别


    根据代理匿名程度的不同,可以划分为透明代理、普通匿名代理、欺骗匿名代理和高匿代理。


    (1)     透明代理


    在透明代理中,代理服务器将客户端的信息转发至目标访问对象,并没有完全隐藏客户端真实的身份。即服务器知道客户端使用了代理IP,并且知道客户端的真实IP地址。


    (2)     普通匿名代理


    在普通匿名代理中,代理服务器用自己的IP代替了客户端的真实IP,但是告诉了目标访问对象这是代理访问。


    (3)     欺骗匿名代理


    在欺骗匿名代理中,目标访问对象同样可以察觉客户端使用代理访问,但是代理服务器会用一个随机的IP代替客户端真实的IP。


    (4)     高匿代理


    在高匿代理中,代理服务器良好地伪装了客户端,不但用一个随机的IP代替了客户端的IP,也隐藏了代理信息,服务器不会察觉到客户端是通过代理实现访问的,即用户仿佛就是直接使用代理服务器作为自己的客户端。


    通常,服务器通过获取HTTP Request的头部信息的相关字段来判断客户端是否使用了代理。该字段包括REMOTE_ADDR、HTTP_VIA 、HTTP_X_FORWARDED_FOR等。


    表1 不同代理类型的HTTP头部字段

代理IP识别技术方案探讨


    二、代理IP识别方案


    从表1中可以看出,对于透明代理、普通匿名代理、欺骗匿名代理,可以通过检测HTTP请求报文的头部字段进行检测。而对于高匿代理,由于其报文头部字段的特征同未使用代理的请求报文头特征类似。所以,通过报文头的识别方法无法对这种类型的代理进行识别。


    我们提出一种通过组合模型集的识别方法来完成代理的识别。


    1


    2.1 组合模型集


    组合模型集应用不同的代理IP识别模型,完成对待测试IP的代理可疑综合评分。这里的识别模型包括端口反向扫描模型、请求报文分析模型、模拟代理访问网站和基于可疑代理IP库识别模型等。对于不同的模型识别结果,计算待检测IP的可疑评分,最终计算出待检测IP的综合评分。


    这种识别方式使得判断结果不仅是简单的“是”或者“否”的形式,而是根据可疑级别计算评分。不同识别模块的侧重点有所不同,可以结合实际场景,根据不同的识别目的,调整各模型的评分系数,从而将这种识别方法应用于不同的业务当中。


    基于组合模型集的识别方案如图2所示。

代理IP识别技术方案探讨

    2.1.1 请求报文分析识别法


    通过获取请求报文中的字段信息来判断客户端是否使用代理。该字段包括REMOTE_ADDR、HTTP_VIA 、HTTP_X_FORWARDED_FOR。


    2.1.2 端口扫描识别法


    端口扫描识别法是通过对于指定的IP地址,扫描代理常用的端口,查看该端口的开放状况,计算其对应的可疑评分。


    2.1.3 模拟代理访问网站识别法


    通过设置指定的IP为代理,以该IP来访问指定的网站,判断其是否访问成功,来计算其相应的可疑评分。


    2.1.4 反向DNS查询识别法


    对待测IP所述的DNS服务器的IP地址进行反向解析,验证该IP是否注册域名,从而计算其相应的可疑评分。


    2.1.5 代理IP库匹配识别


    通过同已构建的代理IP库进行匹配,判断待测IP是否在代理IP库中,从而判断其相应的可疑评分。


    2


    2.2 测试结果


    对于基于组合模型集的代理识别方案的代理IP检测系统,我们进行了初步的测试。


    其中,原因码(OH:包含可疑报文头;OP:开启可疑端口;OR:模拟代理访问网站成功;OD:反向DNS查询成功,OL:代理IP库匹配成功)


    代理评分:A、A-、B、B-、C, 其中A代表代理可疑度最高。


    表2 代理IP检测系统测试结果

代理IP识别技术方案探讨

    经过生产数据测试验证,对于未使用代理的情况,识别率为100%;对于有代理的情况,普通代理(即透明代理)的检测准确率达100%,高匿代理的检测准确率达90%。


    三、 总结


    客户端通过代理来隐藏自身真实身份,从而从事一些违反犯罪活动;一些业务通常也会限制特定IP的访问次数及频率,客户端通常也会采用代理来绕过这些限制。随着线上交易的增加,通过代理进行欺诈交易,将使得欺诈交易难以追踪。代理IP的识别也是风险防控中的关注点之一。上文对代理的识别进行了初步的探讨,由于水平和能力有限,不妥之处在所难免,期待与各位一起学习交流。


相关文章内容简介

1 免费代理IP能用于爬虫吗

    免费代理IP能用于爬虫吗?免费代理IP就是不需要花钱,在网络上可以直接提取,然后用来替换IP。并不是所有项目都能用免费代理IP的,例如爬虫就不可以。    免费代理IP的来源比较杂,很多没有用,使用时间短,匿名程度也参差不齐,其中有一些是高度匿名的,但数量有限,也很难挑选。而爬虫工作需要的IP,要求比较高,因为爬虫IP一旦质量不高就会被对方网站发现,被禁止抓取数据,无法完成工作。所以,免费代理IP是不适合爬虫的。但如果免费代理IP的匿名程度够的话,使用效率低,也是符合使用需求的。    爬虫大家都知道,是采集数据的方式。通过采集来的数据分析,可以获取有价值的信息。而代理IP是换IP最方便的工具,爬虫工作是要用代理IP的。    爬虫对被爬的网站来说是毫无利益的,反而会影响到服务器的工作,所以现在都设有反爬程序,IP限制是最基本的。爬虫工作的时候,如果速度快,用同一个IP会有访问的问题,这时网络就会有验证或者直接封锁IP,给爬虫工作带来了很大的困难。 ... [阅读全文]

2 发帖用代理IP有什么好处?

    发帖用代理IP有什么好处?发帖是网络营销的主要途径,在发帖的时候,很多时候都要用到代理IP,这并不奇怪,代理IP给网络营销人员带来了很大的便利。那么,发帖用代理IP有什么好处?    贴吧大家都不陌生,很多人在贴吧交流,一般同一个IP只能发布有限的帖子,评论也是有限制的。如果想大量发帖,就需要用代理IP来解决了。有很多热帖有的是真实评论,有的可能需要代理IP来帮忙,用代理IP去访问网站,用户不会被网站监视限制,或者被封锁了。    随着网络的发展,网络营销是很多公司必须要做的,其中网络影响最重要的途径就是发帖。很多发帖的工作人员都在使用代理IP,但还有很多人并不了解。那么,营销发帖一定要用代理IP吗?    例如贴吧、微博等平台,这些平台发帖可以与其他网友进行交流,起到宣传的作用。但一个IP发帖的数量是有限的,如果想大量发帖,就需要代理IP的帮助。更换IP后,就可以伪装成一个全新的用户,自然不会被平台限制。还有网络营销最常见的问答方式,也需要更换IP后进行自问... [阅读全文]

推荐阅读

  1. 25

    2020-09

    什么是在线代理ip?

    很多用户在平时使用公告栏、推特、论坛等平台时,要求投稿的数量,频繁地关闭 IP 。发生这种情况,想继续投稿,可以 在线代理ip 解决。例如百度公告栏、百度公告栏对投稿的要求很严格,

  2. 25

    2021-03

    代理服务器和普通服务器有什么区别?

    AgentServer的英文全名是ProxyServer,它的功能是AgentNetwork用户获取网络信息。意象说:它是网络信息的中转站。一般而言,当我们使用网络浏览器直接去连接其他Internet站点获取网络信息时,需要先

  3. 13

    2020-03

    使用代理IP访问网站失败是什么原因?

    在日常的网络工作中,很多网络工作者需要使用到代理IP来辅助完成任务,如比较常见的爬虫工作、营销发帖、网络投票、效果补量等,有是使用第三方工具,有的自己编写代码程序,通过对接A

  4. 31

    2020-08

    代理IP代理网络用户获得网络信息

    代理IP是一种可以代理网络用户去获得网络信息的特殊网络服务。将它运用到工作中可以显著提高浏览速度和效率,达到事半功倍的效果。代理IP作为一种新兴的网络服务,这几年来发展迅速,

  5. 10

    2020-03

    免费代理IP最大的问题在哪?

    很多朋友很气愤的问我,你家的免费代理IP要怎么使用才可以,为什么我浏览器设置了代理后上不了网了,我试了好多个都是这样,你家的都是假IP吗?让我哭笑不得,我只好耐心跟她解释:为

  6. 26

    2020-03

    HTTP代理服务器将客户的真正IP开展更换

    说白了, HTTP代理服务器 就是说将客户的真正 IP 开展更换,用另一个IP开展更换。简易而言HTTP代理服务器如同日常生活普遍的HTTP代理服务器。在盘根错节的网络空间中,稍不注意就会在互联网

因为专业! 所以简单! 产品至上,价格实惠 是我们服务追求的宗旨

免费试用