您现在的位置是：首页 > 后端

当前栏目

python爬虫—–Python访问http的几种方式「建议收藏」

Python 爬虫 HTTP 建议收藏方式访问几种

2023-06-13 09:12:06 时间

大家好，又见面了，我是你们的朋友全栈君。

爬取页面数据，我们需要访问页面，发送http请求，以下内容就是Python发送请求的几种简单方式：

会使用到的库 urllib requests

1.urlopen

import urllib.request
import urllib.parse

import urllib.error
import socket

data = bytes(urllib.parse.urlencode({"hello": "world"}),encoding='utf8')
try:
    response = urllib.request.urlopen('http://httpbin.org/post',data=data,timeout=10)
    print(response.status)
    print(response.read().decode('utf-8'))
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print("TIMEOUT")

2.requests

用到requests中的get post delete put 方法访问请求这种比一简单一些

每个方法有相应的参数列表，比如 get params参数 proxies:设置代理 auth: 认证 timeout ：超时时间等

import requests

ico = requests.get("https://github.com/favicon.ico")
with open("favicon.ico", "wb") as file:
    file.write(ico.content)

3.Request Session

from requests import Session, Request
url = "https://home.cnblogs.com/u/qiutian-guniang/"
s = Session()
req = Request('GET', url=url, headers=header)
pred = s.prepare_request(req)
r = s.send(pred)
print(r.text)
某些网页会禁止抓取数据  我们可以 通过设置User-Agent来设置  使用cookies来保持登录的访问状态例如：以下的cookie内容可以通过在F12控制台获取  复制粘贴 放入headers中

cookies = "_gat=1"

headers = {
    "Cookie": cookies,
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; '
                  'x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/68.0.3440.106 Safari/537.36'
}

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/155864.html原文链接：https://javaforall.cn

猜你喜欢

解析Oracle中的区、段、块（oracle区段块）
MySQL命令行启动：快速简单实用（mysql命令行启动）
XLSTransformer生成excel文件简单演示样例「建议收藏」
Twitter或面临欧盟更严格内容审核；韩国电商巨头用机器人军团替代仓库工人；高通公司副总裁加盟三星丨每日大事件
ORA-07581: spstp: cannot derive SID from unexpected process name ORACLE 报错故障修复远程处理
解密特种枪械①狙击手更喜欢哪种狙击步枪？
Salesforce VisualforcePage取得标准ListView生成PDF文件(五)
的新功能MySQL 2.0的新功能：开启智能QL之旅（mysql2）
深入剖析：Oracle诊断事件的实现原理与应用方法（oracle诊断事件）
M241 系列 PLC 与 Lexium 28 系列伺服系统脉冲控制的实现
表ogg无缝数据转移从oracle表读出的深度体验（ogg读取oracle）
Oracle 12596构建健壮的企业应用（oracle 12596）
Linux系统中探索字体目录的精彩之旅（linux系统的字体目录）
java安装以及配置环境变量详细步骤
清除Dns缓存_怎么清除ip地址缓存
rsyslogd -n_Syslog
基于Redis的运维框架设计与实现（redis 运维框架）
[下载] 微软官方设计团队建立壁纸分享网站提供多张微软风格的创意壁纸
RabbitMQ 学习（五）---- Fanout 广播模型
“发烧”百度指数2022.12.14
5G 版 6799 元：华为 Mate 40 Pro 256 版京东现货开放

zl程序教程

当前栏目

python爬虫—–Python访问http的几种方式「建议收藏」

相关文章