您现在的位置是：首页 > 后端

当前栏目

Python：软科中国大学排名爬虫(2021.11.5)

Python 爬虫排名

2023-09-27 14:28:59 时间

爬虫对象选择
数据处理
完整代码
从 API 获取数据

爬虫对象选择

打开软科中国大学排名，观察这个页面结构复杂且一页只显示了 30 所大学。

而且点击了翻页，发现 url 没有发生变化，说明该页面有可能是已经获取了所有数据，然后使用 JavaScript 动态生成。此时可能就很麻烦了，因为没有办法通过 get 传参的方式来切换网页进行爬取。

从开发者工具中的“network”可以看到，大量的 JavaScript 脚本被执行。

查看“fetch/XHR”，fetch 和 XHR 都是是获取远端数据的方式，fetch 是原生 js 方法，XMLHttpRequest（XHR）是一个构造函数，通过 XMLHttpRequest 可以在不刷新页面的情况下请求特定 URL。但是无论如何这 2 种方式都是向后端获取数据的，但是依次查看这些信息也没有找到所有大学的数据。

因此接下来就需要去找到底是哪个接口能找到这些数据，在开发者工具中搜索随便一所大学，例如清华大学。可以看到在 2 个资源中出现过这个字符串，第一个是“软科中国大学排名”的页面，也就是我们进入网页后能看得到的。

第二个出现在“payload.js”文件中，可以看到在 univData 中出现了清华大学和其他大学的参数，说明这个 JavaScript 文件保存了所有大学的信息。(使用谷歌浏览器和火狐浏览器，在开发者工具中可以自动格式化解析这些网络资源，看着比较友好，用其他的浏览器也可以，不过看到的可能是没有编码过的，但是不影响分析)。

访问“payload.js”文件资源，可以看到这些数据确实存在此处，所以这就是我们要爬虫的对象。

https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js

使用 requests 库进行爬取，编写代码如下：

url = 'https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js'
r = requests.get(url, timeout=20)
if r.status_code == 200:
    r.encoding = 'utf-8'
    content = r.text

数据处理

我们把“payload.js”文件爬下来以后，是不能直接用 JSON 进行解析的，因为这个文件中掺杂了 JavaScript 的代码。

同时这些键值对中，键的部分没有用括号进行包括，此时对于 Python 而言会认为这是个变量。无论是用 json 库还是 eval 都不能直接解析，都会报错。

所以比较好的方式就是直接处理字符串，首先这些数据的顺序就是排名的顺序，因此按顺序提取大学的信息可以得到排名。例如此处我还想获取这些大学的省份信息，除了要切分出“univNameCn”字段信息，还要切分出“province”字段。(软科排名网站使用一个字母代表一个省份或者市，例如“v”代表北京市，“N”代表福建省)

根据实际需求，使用字符串切分的方式提取出我们想要的信息，例如：

colleges = []
while content.find('univNameCn:"') != -1:
    acollege = []
    #切分出大学名称
    content = content[content.find('univNameCn:"') + 12:]
    collegeName = content[:content.find('"')]
    acollege.append(collegeName)
    #切分出省份
    content = content[content.find('province:') + 9:]
    province = content[:content.find(',')]
    acollege.append(province)
    colleges.append(acollege)

完整代码

例如我要输出软科排名前 10 的福建省大学是哪些，一个简单的爬虫 demo 如下：

import requests

url = 'https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js'
r = requests.get(url, timeout=20)
if r.status_code == 200:
    r.encoding = 'utf-8'
    content = r.text
    colleges = []
    while content.find('univNameCn:"') != -1:
        acollege = []
        #切分出大学名称
        content = content[content.find('univNameCn:"') + 12:]
        collegeName = content[:content.find('"')]
        acollege.append(collegeName)
        #切分出省份
        content = content[content.find('province:') + 9:]
        province = content[:content.find(',')]
        acollege.append(province)
        colleges.append(acollege)

    print("{:^10}\t{:^6}".format("排名","学校名称"))
    num = 10
    for i in range(len(colleges)):
        if colleges[i][1] == 'N':
            print("{:^10}\t{:^6}".format(str(i + 1), colleges[i][0]))
            num -= 1
            if num == 0:
                break

输出的结果如下所示：

从 API 获取数据

例如在 2021 年 4 月份，有其他的博主通过 network 找到了软科排名网站返回数据的 API，例如可以参考《python爬虫小案例_中国大学排名（2021.04.11）》这篇博客。

https://www.shanghairanking.cn/api/pub/v1/bcur?bcur_type=11&year=2021

从这个 API 中可以获取某一年份的大学排名信息，且不存在编码问题，键值对也是字符串可以直接被 json 解析。但是现在我直接用开发者工具找是找不到了，不过这个 API 还能用。当网页结构发生改变之时，如果以前的方法不能用了就得另找其他途径了。

猜你喜欢

PostgreSQL性能极限
CYQ.Data 轻量数据层之路自定义MDataTable绑定续章(七)
《C#零基础入门之百识百例》（四十）方法应用 -- 推箱子游戏 -- 代码分析
探索性测试揭秘
【CSMA/CA有效接入】 IEEE802.15.4家庭网络高效节能的基于时隙CSMA/CA的有效接入算法matlab仿真
DevExtreme v 22.1 ASP.NET Core 应用程序项目，配置PivotGrid控件
硬件支出不断减少软件将引领NFV市场未来增长
strlen()与sizeof
Linux 之 Ubuntu 代码开发工具 Visual Studio Code(VSCode) 的安装与一些常用插件配置的简单整理
为什么 SQL 是 2022 年收入最高的编程语言
关于IIS上Yii2的Url路由美化
Javascript 删除tr 元素
reveal 1.6.3 本机破解及使用
JavaScript 带粒子效果的进度条
编辑docker容器中的文件
13字体
阿里一面：你做过哪些代码优化？来一个人人可以用的极品案例
怎样使用Entityframework.Extended
HDU 1796 How many integers can you find (容斥)

相关主题

Python爬虫基础
python学习
Python爬取图片
python爬虫入门
Python math 模块
Python爬虫笔记
Python 爬虫
Python爬虫之scrapy框架
python 返回函数
opencv_python
Python变量类型
Python爬虫三
python爬虫系列
Python调C

zl程序教程