您现在的位置是：首页 > 后端

当前栏目

Python获取免费的可用代理

Python 代理获取免费可用

2023-09-14 09:06:19 时间

Python获取免费的可用代理

在使用爬虫多次爬取同一站点时，常常会被站点的ip反爬虫机制给禁掉，这时就能够通过使用代理来解决。眼下网上有非常多提供最新免费代理列表的站点。这些列表里非常多的代理主机是可用的，可是也有一些是不可用的，因此须要进一步筛选。利用Python能够非常方便地筛选出可用的代理列表。

以提供免费代理信息的站点IPCN 国家地区免费代理为例，这里给出一个爬取此站点上提供的代理信息并筛选可用代理主机的程序。主要用到requests和lxml，详细代码为：

# -*- coding: utf-8 -*-

import requests
from lxml import etree


def get_proxies_from_site():
    url = 'http://proxy.ipcn.org/country/'
    xpath = '/html/body/div[last()]/table[last()]/tr/td/text()'

    r = requests.get(url)
    tree = etree.HTML(r.text)

    results = tree.xpath(xpath)
    proxies = [line.strip() for line in results]

    return proxies

#使用http://lwons.com/wx网页来測试代理主机是否可用
def get_valid_proxies(proxies, count):
    url = 'http://lwons.com/wx'
    results = []
    cur = 0
    for p in proxies:
        proxy = {'http': 'http://' + p}
        succeed = False
        try:
            r = requests.get(url, proxies=proxy)
            if r.text == 'default':
                succeed = True
        except Exception, e:
            print 'error:', p
            succeed = False
        if succeed:
            print 'succeed:', p
            results.append(p)
            cur += 1
            if cur >= count:
                break

if __name__ == '__main__':
    print 'get ' + str(len(get_valid_proxies(get_proxies_from_site(), 20))) + ' proxies'

猜你喜欢

保持系统时间更新：在Linux下完成（linux更新系统时间）
特斯拉上海厂12月Model Y 将减产20%以上？官方回应：不实消息！
使用了星外的Ipsec如何允许MySQL远程连接？
MySQL如何快速导入表格？25字教程来教你！（mysql导入表）
Oracle实现多个条件搜索优化技巧（oracle多个条件）
Python 操作XML文件一文通
SpringBoot：Jar包工程启动、停止、重启脚本
部分网站允许空白referer的防盗链图片的js破解代码
Adobe Acrobat Pro DC 2022 文档管理更高效+DC全版本安装包
Linux系统巡检简明手册（linux系统巡检表）
MySQL实现数据束自动化处理（bundle mysql）
Linux CGI实现网页动态化（linuxcgi）
vuepress-theme-vdoing-doc
回顾各种编码的创新和异同-MEPG2, MPEG4, H.264/AVC以及H.265/HEVC比较[通俗易懂]
MyBatis JPA Extra对MyBatis扩展JPA功能

相关主题

python环境配置
Python元组Tuple
python 操作文件
python split()
Python中Json模块
python app
Python Turtle
0001-python概述

zl程序教程

当前栏目

Python获取免费的可用代理

Python获取免费的可用代理

相关文章