您现在的位置是：首页 > Python

当前栏目

Python微博移动端爬虫实例（附代码）

Python 数据代码

2023-03-09 22:04:49 时间

本文简要讲述用Python爬取微博移动端数据的方法。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据，别人网站当然会反爬越来越严厉。至于为什么不爬PC端，原因是移动端较简单，很适合爬虫新手入门。有时间再写PC端吧！

环境介绍

Python3/Windows-10-64位/微博移动端

网页分析

以获取评论信息为例（你可以以自己的喜好获得其他数据）。如下图：

在这里就会涉及到一个动态加载的概念，也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址，找到真实网址的方法就是打开浏览器的开发者工具，火狐/谷歌是F12键。打开如下：

打开以后点击网络，网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动，在这个过程中就会弹出类似于上图的信息，也就是评论信息加载出来了。找到评论信息，应该会在***条。如下图：

真实网址：https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3

将网址在火狐里面打开如下图：

上面的网址其实pages=3就代表第三页，所以只需模拟网址即可，pages=4,5,6。。。。

另外由于是Json文件，所以提取数据非常方便，只需用切片操作即可。

猜你喜欢

阿里云ESC使用技巧
大学生的福音——阿里云
阿里云服务器25端口解封教程完美解决25端口开通问题
ESC服务器使用心得体会
飞天计划——加速我与理想的距离
阿里云服务器ECS远程登录用户名密码查询方法
ECS飞天加速计划使用体验
在阿里云服务器上搭建邮件服务器
大学生实习-首次上云
自上而下的理解网络（1）——DNS篇
关于我对云翼计划ECS的体验
阿里云服务器开放宝塔面板8888端口配置安全组教程
阿里云服务器这价格降得太离谱了吧？为什么轻量应用服务器便宜？
阿里云服务器IP测试一下哪个地域比较好？
Java 关于split 的一些思考和应用(常见数据处理情况)
shell编程之变量
关于对rsc德体验结果
ECS阿里云服务器小技巧
Linux四剑客之awk数组
shell编程之流程控制判断

zl程序教程

当前栏目

Python微博移动端爬虫实例（附代码）

相关文章