您现在的位置是：首页 > 后端

当前栏目

爬虫之cookie处理

爬虫 Cookie 处理

2023-09-11 14:19:18 时间

一般我们请求的时候，请求头的信息不够就会导致访问不成功
在请求的时候有两个比较重要的信息cookie、referer

两个重要的信息

cookie携带着你的登录信息，如果我们登录之后有cookie，那么在请求的时候应该在请求头上携带cookie的信息
referer一般用来判断当前路径是不是由上一个路径进来的，一般做图片防盗链，他所表示的是上一个页面

网页编码

当我们进行爬虫的时候一定要注意网站网页的编码方式，然后进行解码

查看网页的编码

一般有些界面，特别是登录界面，他的编码方式与其他页面的编码方式不同

在浏览器的页面上面右击
选择查看网页源代码
查看编码方式

例子

我们写一个微博的qq空间的数据爬取

一般我们打开一个url，他的请求表头都是我们需要的在这里插入图片描述

一般带冒号开口的都是我们不需要的数据，我们在定制请求头的时候可以直接删掉
一般也不需要accept-encoding，特别是gzip属性，他表示压缩，这样会导致我们进行解码时候的一些错误

import urllib.request

url = 'https://user.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/main_page_cgi?uin=2211986234&param=3_2211986234_0%7C8_8_2211986234_0_1_0_0_1%7C16&g_tk=609298747&g_tk=609298747'

headers = {
    'accept': '*/*',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cookie': '_ga=GA1.2.677263688.1626059546; pgv_pvid=3396846315; RK=cBzkAtK/7r; ptcz=28c2a5494b6158f2c08229ef9e241d2227d875e894727616ee46bc3ca856f0da; fqm_pvqid=4dd098fe-4ed0-4b40-9df4-0fbdcc0747bb; QZ_FE_WEBP_SUPPORT=1; cpu_performance_v8=0; __Q_w_s__QZN_TodoMsgCnt=1; tvfe_boss_uuid=9a642628d3ec3cfd; ptui_loginuin=2211986234; _qpsvr_localtk=0.37713367706254286; pgv_info=ssid=s8091044446; uin=o2211986234; skey=@LldMYGHaY; p_uin=o2211986234; pt4_token=N*0b5d5l8RdDISQm0nVue09kPQfMo*GUtvnrYkZd5d0_; p_skey=0XATmUfNk3J9AkBrlFHbnZhC9LgzsK62PnX39wlf0fg_; Loading=Yes; qz_screen=1536x864; 2211986234_todaycount=0; 2211986234_totalcount=7537',
    'referer': 'https://user.qzone.qq.com/2211986234/main',
    'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="99", "Google Chrome";v="99"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': "Windows",
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-origin',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
}
# 请求对象的定制
request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')

# 将数据保存到本地
with open('something.json', 'w', encoding='utf-8')as fp:
    fp.write(content)

通过上面的代码，我们可以拿到这个接口下的数据

猜你喜欢

合作建设智慧城市促信息强政兴业惠民
第九十四章属性关键字 - Calculated
逻辑地址、线性地址和物理地址的关系
用Nginx禁止指定IP、国外IP访问我的网站
UWA发布 | Unity手游体检蓝皮书
sql server跟踪、监控、审核、扩展事件学习路径【转】
如何在Eclipse中查看Android API源码以及support包源码
2015 Multi-University Training Contest 3
dpkg: 处理软件包 qjackctl (--configure)时出错解决方法
[算法]滴滴笔试题——赛马问题
[LeetCode] Valid Word Abbreviation 验证单词缩写
CSDN拯救“直男”计划——CSDN为爱助力，桃花朵朵开！
（数据科学学习手札43）Plotly基础内容介绍
Odoo 15 前端框架 OWL与odoo结合--边学边练笔记 3
Hudi-核心概念(时间轴、文件管理、索引)

相关主题

Python爬虫基础
python爬虫学习
[Python]爬虫v0.1
python爬虫图片
Python 爬虫篇
Python爬虫笔记
scrapy爬虫框架
爬虫学习
什么是爬虫
第一个爬虫
反爬虫
记第一个爬虫
65 爬虫 - Scrapy 框架
Python爬虫框架Scrapy
python爬虫(一)
python爬虫框架
反爬虫日记
爬虫基本原理
爬虫与反爬虫
爬虫笔记

zl程序教程

当前栏目

爬虫之cookie处理

两个重要的信息

网页编码

查看网页的编码

例子

相关文章