Python:软科中国大学排名爬虫(2021.11.5)
爬虫对象选择
打开软科中国大学排名,观察这个页面结构复杂且一页只显示了 30 所大学。
而且点击了翻页,发现 url 没有发生变化,说明该页面有可能是已经获取了所有数据,然后使用 JavaScript 动态生成。此时可能就很麻烦了,因为没有办法通过 get 传参的方式来切换网页进行爬取。
从开发者工具中的“network”可以看到,大量的 JavaScript 脚本被执行。
查看“fetch/XHR”,fetch 和 XHR 都是是获取远端数据的方式,fetch 是原生 js 方法,XMLHttpRequest(XHR)是一个构造函数,通过 XMLHttpRequest 可以在不刷新页面的情况下请求特定 URL。但是无论如何这 2 种方式都是向后端获取数据的,但是依次查看这些信息也没有找到所有大学的数据。
因此接下来就需要去找到底是哪个接口能找到这些数据,在开发者工具中搜索随便一所大学,例如清华大学。可以看到在 2 个资源中出现过这个字符串,第一个是“软科中国大学排名”的页面,也就是我们进入网页后能看得到的。
第二个出现在“payload.js”文件中,可以看到在 univData 中出现了清华大学和其他大学的参数,说明这个 JavaScript 文件保存了所有大学的信息。(使用谷歌浏览器和火狐浏览器,在开发者工具中可以自动格式化解析这些网络资源,看着比较友好,用其他的浏览器也可以,不过看到的可能是没有编码过的,但是不影响分析)。
访问“payload.js”文件资源,可以看到这些数据确实存在此处,所以这就是我们要爬虫的对象。
https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js
使用 requests 库进行爬取,编写代码如下:
url = 'https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js'
r = requests.get(url, timeout=20)
if r.status_code == 200:
r.encoding = 'utf-8'
content = r.text
数据处理
我们把“payload.js”文件爬下来以后,是不能直接用 JSON 进行解析的,因为这个文件中掺杂了 JavaScript 的代码。
同时这些键值对中,键的部分没有用括号进行包括,此时对于 Python 而言会认为这是个变量。无论是用 json 库还是 eval 都不能直接解析,都会报错。
所以比较好的方式就是直接处理字符串,首先这些数据的顺序就是排名的顺序,因此按顺序提取大学的信息可以得到排名。例如此处我还想获取这些大学的省份信息,除了要切分出“univNameCn”字段信息,还要切分出“province”字段。(软科排名网站使用一个字母代表一个省份或者市,例如“v”代表北京市,“N”代表福建省)
根据实际需求,使用字符串切分的方式提取出我们想要的信息,例如:
colleges = []
while content.find('univNameCn:"') != -1:
acollege = []
#切分出大学名称
content = content[content.find('univNameCn:"') + 12:]
collegeName = content[:content.find('"')]
acollege.append(collegeName)
#切分出省份
content = content[content.find('province:') + 9:]
province = content[:content.find(',')]
acollege.append(province)
colleges.append(acollege)
完整代码
例如我要输出软科排名前 10 的福建省大学是哪些,一个简单的爬虫 demo 如下:
import requests
url = 'https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js'
r = requests.get(url, timeout=20)
if r.status_code == 200:
r.encoding = 'utf-8'
content = r.text
colleges = []
while content.find('univNameCn:"') != -1:
acollege = []
#切分出大学名称
content = content[content.find('univNameCn:"') + 12:]
collegeName = content[:content.find('"')]
acollege.append(collegeName)
#切分出省份
content = content[content.find('province:') + 9:]
province = content[:content.find(',')]
acollege.append(province)
colleges.append(acollege)
print("{:^10}\t{:^6}".format("排名","学校名称"))
num = 10
for i in range(len(colleges)):
if colleges[i][1] == 'N':
print("{:^10}\t{:^6}".format(str(i + 1), colleges[i][0]))
num -= 1
if num == 0:
break
输出的结果如下所示:
从 API 获取数据
例如在 2021 年 4 月份,有其他的博主通过 network 找到了软科排名网站返回数据的 API,例如可以参考《python爬虫小案例_中国大学排名(2021.04.11)》这篇博客。
https://www.shanghairanking.cn/api/pub/v1/bcur?bcur_type=11&year=2021
从这个 API 中可以获取某一年份的大学排名信息,且不存在编码问题,键值对也是字符串可以直接被 json 解析。但是现在我直接用开发者工具找是找不到了,不过这个 API 还能用。当网页结构发生改变之时,如果以前的方法不能用了就得另找其他途径了。
相关文章
- 教你Python字符串的基本操作:拆分和连接
- Python实现汉诺塔--简单交互演示版
- Python常用函数:zipfile模块【压缩和解压缩】
- Python爬虫之BeautifulSoup
- 深入理解GIL:如何写出高性能及线程安全的Python代码
- Python大作业---微博爬虫及简单数据分析
- Pyspider框架 —— Python爬虫实战之爬取 V2EX 网站帖子
- python用httplib模块发送get和post请求***
- 精品基于Python实现的基于BS架构的在线学习与推荐系统知识分享
- 利用Python爬虫技术的一些骚操作
- Python __call__详解
- Python List extend()方法
- 【python】NLTK好文
- python判断一个数字是整数还是浮点数&判断整除
- python实现简单爬虫功能
- Python 进阶编程之字典的高级用法
- Python sys.argv[]
- 你不能错过的【Python爬虫】测试2(完整源代码+架构+结果)
- 你不能错过的【Python爬虫】测试(完整源代码+架构+结果)
- python之装饰器
- python开发者常犯的10个错误(转)
- python实现简单爬虫功能
- Python使用property函数定义属性访问方法如果不定义fget会怎么样?
- 【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集
- Python NumPy 拆分数组
- Python pandas.DataFrame.head函数方法的使用
- 【Python爬虫错误】ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接
- 如何实现python爬虫?python爬虫好学吗?
- 【Python】数据类型转换 ( 数据类型转换函数 | 整数 / 浮点数转字符串示例 | 字符串转整型 / 浮点型示例 | 整数 / 浮点数互相转换 )
- 三十二、python学习之Flask框架(四)模板:jinja2模板、过滤器、模板复用(继承、宏、包含)、了解CSRF跨站请求攻击