您现在的位置是：首页 > Python

当前栏目

Python爬虫音频数据

Python 数据

2023-03-07 09:54:44 时间

一：前言

本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息，然后把爬取的数据保存到mongodb以备后续使用。这次数据量在70万左右。音频数据包括音频下载地址，频道信息，简介等等，非常多。

昨天进行了人生中***次面试，对方是一家人工智能大数据公司，我准备在这大二的暑假去实习，他们就要求有爬取过音频数据，所以我就来分析一下喜马拉雅的音频数据爬下来。目前我还在等待三面中，或者是通知最终面试消息。 (因为能得到一定肯定，不管成功与否都很开心)

二：运行环境

IDE：Pycharm 2017
Python3.6
pymongo 3.4.0
requests 2.14.2
lxml 3.7.2
BeautifulSoup 4.5.3

三：实例分析

1.首先进入这次爬取的主页面 http://www.ximalaya.com/dq/all/ ，可以看到每页12个频道，每个频道下面有很多的音频，有的频道中还有很多分页。抓取计划：循环84个页面，对每个页面解析后抓取每个频道的名称，图片链接，频道链接保存到mongodb。

热门频道

2.打开开发者模式，分析页面，很快就可以得到想要的数据的位置。下面的代码就实现了抓取全部热门频道的信息，就可以保存到mongodb中。

分析频道

3.下面就是开始获取每个频道中的全部音频数据了，前面通过解析页面获取到了美国频道的链接。

比如我们进入 http://www.ximalaya.com/6565682/album/237771 这个链接后分析页面结构。可以看出每个音频都有特定的ID，这个ID可以在一个div中的属性中获取。使用split()和int()来转换为单独的ID。

频道页面分析

4.接着点击一个音频链接，进入开发者模式后刷新页面然后点击XHR，再点击一个json链接可以看到这个就包括这个音频的全部详细信息。

音频页面分析

5.上面只是对一个频道的主页面解析全部音频信息，但是实际上频道的音频链接是有很多分页的。

分页

6.全部代码

完整代码地址 github.com/rieuse/learnPython

7.如果改成异步的形式可以快一点，只需要修改成下面这样就行了。我试了每分钟要比普通的多获取近100条数据。这个源代码也在github中。

异步

五：总结

这次抓取的数据量在70万左右，这些数据后续可以进行很多研究，比如播放量排行榜、时间区段排行、频道音频数量等等。后续我将继续学习使用科学计算和绘图工具来进行数据分析，清洗的工作。

猜你喜欢

LoadRunner随机数
逆天人造肌肉，平均功率是人类肌肉的10倍，V-8柴油机的2.2倍，可用于机械外骨骼
Django+Celery学习笔记4——django+celery+redis周期任务Crontabs设置
技术分享 | MySQL 覆盖索引优化案例一则
女博士用3D打印“卧底”海龟蛋，装GPS骗过偷猎者，还揭发了137公里的非法贸易链
PromQL之函数
Django项目在Linux服务器上部署和躺过的坑
实时即未来！Flink Forward Asia 2021 议程正式上线！
Cypress学习笔记6——Debugging调试代码
Selenium Web自动化测试——基于unittest框架的PO设计模式
ECS+docker配置远程二进制调试环境
使用Postman工具做接口测试(五)——生成随机参数
GRPC: 基于云原生环境，区分配置文件
LR中解决接口请求中包含中文字符，服务器不识别的问题
阿里云的使用体验
Git命令——学习笔记1
ECS云服务器的使用体验
今年半导体行业第三次大并购！AMD想用300亿美元拿下赛灵思，最早下周达成交易
【愚公系列】2023年01月网安实验-.先欠着（待定）
借助 Flink 与 Pulsar，BIGO 打造实时消息处理系统

zl程序教程

当前栏目

Python爬虫音频数据

相关文章