用Python爬取前程无忧网大数据岗位信息并分析!找到最合适你的
2023-03-07 09:52:44 时间
近期秋招进入高峰期,28号学校有一个秋招大型招聘会,本来想在网上爬一下自己专业的招聘岗位,结果检索结果寥寥无几(摊手),于是我就无奈的爬取并分析了一波我准备转行的大数据行业的就业行情。
爬虫的基本思路
- 在前程无忧官网检索“大数据”的结果中,每条检索结果详情对应的URL存在a标签的href属性中,通过组合选择器可以找到每条检索结果详情的URL。
- 前程无忧的招聘岗位信息数据固定的放在HTML的各个标签内,通过id选择器、标签选择器和组合选择器可以诸如公司名、岗位名称和薪资等11个字段的数据。
- 基于上述1和2,可以通过解析检索“大数据”得到的URL得到其HTML,再从此HTML中的具体位置的a标签得到每个岗位的详情对应的URL;然后解析每个岗位的详情对应的URL得到其HTML,再从结果HTML的具体位置找到每个岗位的详情。具体位置怎么确定呢?通过组合选择器!
前程无忧爬虫具体代码
直接贴代码容易破坏我的排版,具体代码见:https://github.com/cugwhzenith/SpiderOf51job.git,其中SpiderOf51job.py就是爬虫代码,关键点的操作见注释。其他的代码是对爬虫代码的处理。
爬虫结果
爬虫结果我是以csv的格式存储的,看起来不太直观,所以我打算用wordcloud和直方图来可视化爬虫的结果。
![用Python爬取前程无忧网大数据岗位信息并分析!找到最合适你的](https://s1.51cto.com/oss/201909/25/cf0c6e78b0132ec2a19462879601a069.jpeg)
爬虫结果处理
一般来说,应聘者对一个工作的地点、工作名称、薪资和需要的技术最为关心,刚好上述爬虫的结果包含了这四个字段。
1、薪资结果的处理。在爬虫结果中,薪资在第二列,一般是诸如“1-2万/月”、“20万/年”和“500/天”的结果,先判断每个结果的最后一个字符是“年”、“月”和“天”的哪一个,确定处理的逻辑之后,再用re.sub函数将除了数字之外的字符替换为空格,最后对结果求均值就到了了每个结果的均值。具体处理见wordcloudPlotSalary.py 。
![用Python爬取前程无忧网大数据岗位信息并分析!找到最合适你的](https://s5.51cto.com/oss/201909/25/aa228806a00c94d725e63a99e066c484.jpeg)
2、需要的技术的处理。考虑到大数据要使用的技术绝大多数由外国人开发,如实我把大数据要使用的技术这一字段的中文全部替换为空格,然后用jieba剔除掉一些无意义的助词,就得到了大数据要使用的技术的词云图。具体代码见wordcloudPlotJobinfo.py 。
![用Python爬取前程无忧网大数据岗位信息并分析!找到最合适你的](https://s2.51cto.com/oss/201909/25/255a9205fe616ca8faf4e5797daa6237.jpeg)
3、工作地点和职位名称的处理和上述2类似参见wordcloudPlotPlace.py和wordcloudPlotName.py,此处不再赘余,直接放结果。
工作地点词云:
![用Python爬取前程无忧网大数据岗位信息并分析!找到最合适你的](https://s3.51cto.com/oss/201909/25/bc64cab73eb33f98add935c2111554a9.jpeg)
职位名称词云:
![用Python爬取前程无忧网大数据岗位信息并分析!找到最合适你的](https://s5.51cto.com/oss/201909/25/2ff0419286c323376fe51af12dcba4a5.jpeg)
总结
- 前程无忧上大数据相关岗位出现频率最高的是:大数据开发工程师
- 开出的平均工资:18K/月
- 大数据就业岗位最多的城市是:上海、广州和深圳、
- 大数据工作最吃香的技能是:Hadoop、SQL和Python
相关文章
- 图像处理工具Python扩展库,你了解吗?
- 十个常用的损失函数解释以及Python代码实现
- 30 个数据科学工作中必备的 Python 包
- 如何在 Windows 上安装 Python
- 几行 Python 代码就可以提取数百个时间序列特征
- 使用Python快速搭建接口自动化测试脚本实战总结
- 哪种编程语言最适合开发网页抓取工具?
- 不要在 Python 中使用循环,这些方法其实更棒!
- 震惊!用Python探索《红楼梦》的人物关系!
- 如何最简单、通俗地理解Python模块?
- 酷炫,Python实现交通数据可视化!
- 为什么急于寻找Python的替代者?
- 30 个数据工程必备的Python 包
- 去字节面试被面这题能答上来吗?谈谈你对时间轮的理解?
- 火山引擎在行为分析场景下的 ClickHouse JOIN 优化
- 用Python爬取了某宝1166家月饼数据进行可视化分析,终于找到最好吃的月饼~
- 在 Linux 上试试这个基于 Python 的文件管理器
- Python列表解析式到底该怎么用?
- 如何快速把你的 Python 代码变为 API
- 十个Python初学者常犯的错误