【2K收藏干货】速看,Python爬虫常用库-requests
记得安装快速第三方库,Python经常需要安装第三方库,原始的下载速度很慢,使用国内的镜像就很快啦
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名
requests
requests官方文档 https://docs.python-requests.org/zh_CN/latest/
进行爬虫,首先要对网址进行请求,这个时候就要用刀我们的requests模块了。requests是python的一个HTTP客户端库,跟urllib,urllib2类似。与urllib,urllib2相比,requests模块语法更加简单。正如他的官网所说:
requests模块介绍
发送http请求,获取响应数据
requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装
pip/pip3 install requests
requests基础
requests模块发送get请求
#https://beishan.blog.csdn.net/
import requests
# 目标url
url = 'https://www.baidu.com'
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
print(response.text)
response响应对象
观察上边代码运行结果发现,有好多乱码;这是因为编解码使用的字符集不同早造成的;我们尝试使用下边的办法来解决中文乱码问题
mport requests
url = 'https://www.baidu.com'
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
# print(response.text)
print(response.content.decode()) # 注意这里!
1.response.text是requests模块按照chardet模块推测出的编码字符集进行解码的结果
2.网络传输的字符串都是bytes类型的,所以response.text = response.content.decode(‘推测出的编码字符集’)
3.我们可以在网页源码中搜索charset,尝试参考该编码字符集,注意存在不准确的情况
response.text 和response.content的区别
1.response.text
类型:str
解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
2.response.content
类型:bytes
解码类型: 没有指定
解决中文乱码
通过对response.content进行decode,来解决中文乱码
response.content.decode() 默认utf-8
response.content.decode("GBK")
常见的编码字符集
utf-8
gbk
gb2312
ascii (读音:阿斯克码)
iso-8859-1
response响应对象的其它常用属性或方法
#https://beishan.blog.csdn.net/
# 1.2.3-response其它常用属性
import requests
# 目标url
url = 'https://www.baidu.com'
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
# print(response.text)
# print(response.content.decode()) # 注意这里!
print(response.url) # 打印响应的url
print(response.status_code) # 打印响应的状态码
print(response.request.headers) # 打印响应对象的请求头
print(response.headers) # 打印响应头
print(response.request._cookies) # 打印请求携带的cookies
print(response.cookies) # 打印响应中携带的cookies
requests实操
requests模块发送请求
发送带header的请求
我们先写一个获取百度首页的代码
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.content.decode())
# 打印响应对应请求的请求头信息
print(response.request.headers)
从浏览器中复制User-Agent,构造headers字典;完成下面的代码后,运行代码查看结果
import requests
url = 'https://www.baidu.com'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 在请求头中带上User-Agent,模拟浏览器发送请求
response = requests.get(url, headers=headers)
print(response.content)
# 打印请求头信息
print(response.request.headers)
1
发送带参数的请求
我们在使用百度搜索的时候经常发现url地址中会有一个 ?,那么该问号后边的就是请求参数,又叫做查询字符串
在url携带参数,直接对含有参数的url发起请求
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
url = 'https://www.baidu.com/s?wd=python'
response = requests.get(url, headers=headers)
通过params携带参数字典
1.构建请求参数字典
2.向接口发送请求的时候带上参数字典,参数字典设置给params
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 这是目标url
# url = 'https://www.baidu.com/s?wd=python'
# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'
# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'}
# 带上请求参数发起请求,获取响应
response = requests.get(url, headers=headers, params=kw)
print(response.content)
从浏览器中复制User-Agent和Cookie
浏览器中的请求头字段和值与headers参数中必须一致
headers请求参数字典中的Cookie键对应的值是字符串
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 这是目标url
# url = 'https://www.baidu.com/s?wd=python'
# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'
# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'}
# 带上请求参数发起请求,获取响应
response = requests.get(url, headers=headers, params=kw)
print(response.content)
从浏览器中复制User-Agent和Cookie
浏览器中的请求头字段和值与headers参数中必须一致
headers请求参数字典中的Cookie键对应的值是字符串
import requests
url = 'https://github.com/USER_NAME'
# 构造请求头字典
headers = {
# 从浏览器中复制过来的User-Agent
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
# 从浏览器中复制过来的Cookie
'Cookie': 'xxx这里是复制过来的cookie字符串'
}
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers)
print(resp.text)
超时参数timeout的使用
在平时网上冲浪的过程中,我们经常会遇到网络波动,这个时候,一个请求等了很久可能任然没有结果。
在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,这个时候我们就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错。
超时参数timeout的使用方法
response = requests.get(url, timeout=3)
timeout=3表示:发送请求后,3秒钟内返回响应,否则就抛出异常
import requests
url = 'https://twitter.com'
response = requests.get(url, timeout=3) # 设置超时时间
requests发送post请求的方法
response = requests.post(url, data)
data参数接收一个字典
requests模块发送post请求函数的其它参数和发送get请求的参数完全一致
软件测试面试刷题
最后:下方这份完整的软件测试视频学习教程已经整理上传完成,朋友们如果需要可以自行免费领取 【保证100%免费】
相关文章
- python3 爬虫实战:mitmproxy 对接 python 下载抖音小视频
- Python Twisted 介绍
- Python 爬虫与HTTP协议简介
- python爬虫知识点总结(九)Requests+正则表达式爬取猫眼电影
- python基础之上下文管理器
- Python网络爬虫(一):初步认识网络爬虫
- python DataFrame数据格式化(设置小数位数,百分比,千分位分隔符)
- python爬虫做副业!解锁python爬虫挣钱方式
- 79 python - 打飞机案例(敌机发射子弹)
- 精通Python网络爬虫:核心技术、框架与项目实战.3.6 网络爬虫实现技术
- Python爬虫技术--基础篇--常用第三方模块Pillow和requests
- Python爬虫技术--基础篇--判断与循环语句
- 【Python】【爬虫】+爬取新闻
- python网络爬虫 - 设定重试次数内反复抓取
- Python之reduce
- Python网络爬虫提取之Beautiful Soup入门
- Python网络爬虫规则之Request库入门
- Python爬虫入门一之综述
- 《用Python写网络爬虫》——1.4 编写第一个网络爬虫
- python装饰器2:类装饰器
- Python 实现被动收入教程之我如何使用 python 制作我的第一个高级telegram机器人
- python学习(六)之函数与返回值
- Python 爬虫 之 爬取百度贴吧内容的封装、输入贴吧主题即可对应爬取
- 【Python爬虫】:使用动态IP代理进行反反爬虫
- Python基础4
- 电商 Python 生成补单公司需要的评论格式2
- Python网络爬虫反爬破解策略实战