您现在的位置是：首页 > 后端

当前栏目

爬虫入门基础-Firefox数据抓包

爬虫基础数据入门 firefox 抓包

2023-06-13 09:15:44 时间

我们知道了什么是爬虫，也知道了爬虫的具体流程。那么在我们要对某个网站进行爬取的时候要对其数据进行分析，就要知道应该怎么请求就要知道获取的数据是什么样的，我们要学会怎么数据抓包。打开我们的 firfox浏览器（使用developer版本 https://www.mozilla.org/zh-CN/firefox/developer/），www.16yun.cn/help/ 用力回车，这个时候，进入开发者模式。可以看到查看器标签下对应的 HTML 代码其实就是这个网页的代码爬虫入门基础-Firefox数据抓包

我们点击网络这个标签，然后刷新一下，可以看到有很多的请求。爬虫入门基础-Firefox数据抓包

HTTP 的请求方式有好几种GET, POST, PUT, DELETE, HEAD, OPTIONS, TRACE 不过最常见的就是 GET 和 POST 请求我们直接搜索 curl 然后我们就可以发现，有好多请求。爬虫入门基础-Firefox数据抓包

这些都是 GET 请求，我们随便点击一个请求进去。爬虫入门基础-Firefox数据抓包

可以看到我们的请求URL https://da.qidian.qq.com/ping/pv?v=0.7.7 tid=2852159957 aid= pid=pmiv88.r7hk8g.k9jadf6j qid=u4wwzq.mg3d1l.k9ja8lwt src=11 cid=925788040378091 sid=1.1.4s7tel.k9ja8m1r r=https%3A%2F%2Fwww.16yun.cn%2Fhelp%2F pt=curl%E7%A4%BA%E4%BE%8B+-+%E4%BA%BF%E7%89%9B%E4%BA%91 sw=1080 sh=1920 dpr=1 saw=1080 sah=1920 scd=24 so=landscape-primary bw=1065 bh=594 tz=-8 hasf=32.0.0 hasadb=1 hasc=1 hastc=0 hasls=1 hasss=1 hasid=1 t=k9jadf98 z=jbk3ea 在？后面的就是 GET 请求的参数，这些参数以「键值对」的形式实现，比如这里的 v=0.7.7 就是告诉网站，需要请求版本0.77，这种方式的请求方式是最简单的，所以以后我们在 Python 写 GET 请求的时候。直接在 URL 后面加个？然后添加参数值就好了。那么，啥是 POST 请求呢？我们在做一些信息提交的时候比如注册，登录这时候我们做的就是 POST 请求，POST 的参数不会直接放在 URL 上，会以 Form 表单的形式将数据提交给服务器。我们来登录一下ip.16yun.cn:817 爬虫入门基础-Firefox数据抓包

当我们点击登录的时候，就开始将我们的账号密码请求给务器，可以看到我们请求了登录这个接口，请求方法就是 POST。爬虫入门基础-Firefox数据抓包

而我们的请求参数是以 Form 表单的方式提交的爬虫入门基础-Firefox数据抓包

拉到下面就可以看到 username 就是 test password 就是 test 这些都是 POST 参数可以发现，GET请求把请求参数都暴露在URL上，而POST请求的参数放在request body 里面爬虫入门基础-Firefox数据抓包

这个就是请求头，Request Header，我们在做 HTTP 请求的时候，除了提交一些参数之外，我们还有定义一些 HTTP 请求的头部信息，比如 Accept、Host、cookie、User-Agent等等，这些参数也是我们在做爬虫要用到，通过这些信息，欺骗服务器，告诉它我们是正规请求。比如，我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话，User-Agent 告诉服务器我们是浏览器请求的，说完我们这边的请求了. 接着我们再说说服务器的响应你一定遇到过 404 页面吧，或者服务器错误返回个 502 ，这些 404 ，200，301，502 都是服务器的响应码，一般服务器给我们返回 200，那就说明，我们成功请求了。再来说说响应头，当我们请求成功之后，服务器会给我们返回响应码之外，还有响应头,这个头主要是告诉我们数据以什么样的形式展现，告诉我们cookie的设置，还有一个，就是响应体了。说白了，就是服务器返回给我们的数据，我们点击 Response 就可以看到相关的数据了爬虫入门基础-Firefox数据抓包

看，这些就是服务器返回给我们的 HTML 源代码，对于不同的请求，我们获取到的数据是不一样的，除了 HTML的，也有 JSON 的，图片二进制数据等等，可以针对不同的情况，用不同的手段来解析这些数据说到这里，想必你已经会在 Firefox 抓包了，所谓抓包，就是我们摸清了浏览器里面的套路，知道它是怎么搞，那么通过我们的请求，GET 请求也好，POST 请求也罢，只要知道请求方式，只要知道请求参数，只要知道请求头定义，只要知道怎么拿到返回的数据。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/53619.html

FireFoxpython

猜你喜欢

java中常用的时间处理类TimeUtil详解编程语言
从Redis中获取更多解析运行逻辑（redis运行逻辑）
如何在Oracle中使用模糊查询查找表？（oracle模糊查询表）
鲁班学院突破Redis面试，获取理想工作（鲁班学院redis面试）
一款强大的PDF编辑加密转换软件，Acrobat XI 安装教程
Oracle临时文件安全可靠的存储位置（oracle临时文件在哪）
作为5年开发的程序员你不懂分表分库的实现思路，我表示不理解
JVM总结篇详解编程语言
领英群发消息方法技巧
Linux 下安全关机命令指南（linux下关机命令）
快速搭建基于Vue3+Vite2+Arco+Typescript+Pinia后台管理系统模板，文末有福利
javascript随机抽签程序详解编程语言
【论文阅读笔记】Myers的O(ND)时间复杂度的高效的diff算法
Visual Studio 2022软件下载和安装教程
“当我们在读书时，我们在读什么？” | 岂安科技 X 铁匠运维网联名送书
利用Bitand提升MySQL性能（bitand mysql）
如何利用MySQL实现表的分割（2 mysql怎么分表）
连接高效完成Java面试：掌握Oracle连接知识（java面试oracle）
MySQL中运用CMD命令操作数据库（mysql的cmd命令）

zl程序教程

当前栏目

爬虫入门基础-Firefox数据抓包

相关文章