您现在的位置是：首页 > 后端

当前栏目

【2K收藏干货】速看，Python爬虫常用库-requests

Python 爬虫常用收藏干货 requests

2023-09-11 14:14:23 时间

记得安装快速第三方库，Python经常需要安装第三方库，原始的下载速度很慢，使用国内的镜像就很快啦

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名

requests

requests官方文档 https://docs.python-requests.org/zh_CN/latest/

进行爬虫，首先要对网址进行请求，这个时候就要用刀我们的requests模块了。requests是python的一个HTTP客户端库，跟urllib，urllib2类似。与urllib，urllib2相比，requests模块语法更加简单。正如他的官网所说：

requests模块介绍

发送http请求，获取响应数据

requests模块是一个第三方模块，需要在你的python(虚拟)环境中额外安装

pip/pip3 install requests

requests基础

requests模块发送get请求

#https://beishan.blog.csdn.net/
import requests 
# 目标url
url = 'https://www.baidu.com' 
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
print(response.text)

response响应对象

观察上边代码运行结果发现，有好多乱码；这是因为编解码使用的字符集不同早造成的；我们尝试使用下边的办法来解决中文乱码问题

mport requests 
url = 'https://www.baidu.com' 
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
# print(response.text)
print(response.content.decode()) # 注意这里！

1.response.text是requests模块按照chardet模块推测出的编码字符集进行解码的结果

2.网络传输的字符串都是bytes类型的，所以response.text = response.content.decode(‘推测出的编码字符集’)

3.我们可以在网页源码中搜索charset，尝试参考该编码字符集，注意存在不准确的情况

response.text 和response.content的区别

1.response.text

类型：str

解码类型： requests模块自动根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码

2.response.content

类型：bytes

解码类型：没有指定

解决中文乱码

通过对response.content进行decode，来解决中文乱码

response.content.decode() 默认utf-8
response.content.decode("GBK")

常见的编码字符集

utf-8

gbk

gb2312

ascii （读音：阿斯克码）

iso-8859-1

response响应对象的其它常用属性或方法

#https://beishan.blog.csdn.net/
# 1.2.3-response其它常用属性
import requests


# 目标url
url = 'https://www.baidu.com'


# 向目标url发送get请求
response = requests.get(url)


# 打印响应内容
# print(response.text)
# print(response.content.decode())       # 注意这里！
print(response.url)              # 打印响应的url
print(response.status_code)          # 打印响应的状态码
print(response.request.headers)        # 打印响应对象的请求头
print(response.headers)            # 打印响应头
print(response.request._cookies)      # 打印请求携带的cookies
print(response.cookies)            # 打印响应中携带的cookies

requests实操

requests模块发送请求

发送带header的请求

我们先写一个获取百度首页的代码

import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.content.decode())
# 打印响应对应请求的请求头信息
print(response.request.headers)

从浏览器中复制User-Agent，构造headers字典；完成下面的代码后，运行代码查看结果

import requests


url = 'https://www.baidu.com'


headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}


# 在请求头中带上User-Agent，模拟浏览器发送请求
response = requests.get(url, headers=headers) 


print(response.content)


# 打印请求头信息
print(response.request.headers)
1

发送带参数的请求

我们在使用百度搜索的时候经常发现url地址中会有一个 ?，那么该问号后边的就是请求参数，又叫做查询字符串

在url携带参数，直接对含有参数的url发起请求

import requests


headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}


url = 'https://www.baidu.com/s?wd=python'


response = requests.get(url, headers=headers)

通过params携带参数字典

1.构建请求参数字典

2.向接口发送请求的时候带上参数字典，参数字典设置给params

import requests


headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}


# 这是目标url
# url = 'https://www.baidu.com/s?wd=python'


# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'


# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'}


# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw)


print(response.content)

从浏览器中复制User-Agent和Cookie

浏览器中的请求头字段和值与headers参数中必须一致

headers请求参数字典中的Cookie键对应的值是字符串

import requests


headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}


# 这是目标url
# url = 'https://www.baidu.com/s?wd=python'


# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'


# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'}


# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw)


print(response.content)

从浏览器中复制User-Agent和Cookie

浏览器中的请求头字段和值与headers参数中必须一致

headers请求参数字典中的Cookie键对应的值是字符串

import requests


url = 'https://github.com/USER_NAME'


# 构造请求头字典
headers = {
    # 从浏览器中复制过来的User-Agent
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
    # 从浏览器中复制过来的Cookie
    'Cookie': 'xxx这里是复制过来的cookie字符串'
}


# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers)


print(resp.text)

超时参数timeout的使用

在平时网上冲浪的过程中，我们经常会遇到网络波动，这个时候，一个请求等了很久可能任然没有结果。

在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。

超时参数timeout的使用方法

response = requests.get(url, timeout=3)


timeout=3表示：发送请求后，3秒钟内返回响应，否则就抛出异常


import requests




url = 'https://twitter.com'
response = requests.get(url, timeout=3)     # 设置超时时间

requests发送post请求的方法

response = requests.post(url, data)

data参数接收一个字典

requests模块发送post请求函数的其它参数和发送get请求的参数完全一致

软件测试面试刷题

在这里插入图片描述

最后：下方这份完整的软件测试视频学习教程已经整理上传完成，朋友们如果需要可以自行免费领取 【保证100%免费】
在这里插入图片描述

猜你喜欢

【学习总结】计算机网络-纠错编码之海明码or汉明码
二叉排序树
在Apache设置虚拟机
mysql储存函过程和储存函数都属于存储程序
imageNamed is evil[转]
LabVIEW编程LabVIEW开发 PXI-4070数字万用表例程与相关资料
AOS编排语言系列教程（一）：开启AOS之旅，解锁各种自动化姿势
Spark Standalone部署和配置调优
在MySQL中使用init-connect与binlog来实现用户操作追踪记录
[Javascript] History API
KVM、kickstart与NFS集成
在web page中使鼠标右击失效的几种方法
CH-9 管理你的数据
Android 10.0修改系统型号(Build.MODEL)
PHP中用CURL实现GET和POST请求
SQL注入绕过技巧总结
华为OD机试 - 补种未成活胡杨（Java & JS & Python）
大一新生入学开班会简单自我介绍说什么?提前用便签编辑
Linux time ls命令：用户态内核态分别占用多长时间

相关主题

python异步爬虫
Python爬虫实例
Python-Python入门
python爬虫入门
Python: filter
python zip()函数
python 爬虫 scrapy
Python爬虫示例
Python--类定义
Python爬虫三
python-爬虫案例

zl程序教程