您现在的位置是：首页 > Python

当前栏目

一个简单的爬虫实例

2023-04-18 14:44:30 时间

貌似学习python就绕不过爬虫，今天看了很多资料，各式各样的爬虫，各种尝试，最后还是只能搞定入门级的，嗯，一步步来吧……

import requests from lxml import html url=’https://music.douban.com/’ #需要爬的网址 page=requests.Session().get(url) tree=html.fromstring(page.text) result=tree.xpath(‘//tr//a/text()’) #需要获取的数据 result1=tree.xpath(‘//tr//a/@href’) result2=tree.xpath(‘//tr[last()]//a/@href’) print(result) print(result1) print(result2)

我们爬取一下豆瓣音乐专区，其中url便是我们要爬取的网址，而tree.xpath()中的内容便是该网址中我们要获取的数据，显而易见，该程序爬取了三部分内容，//tr//a/text()便是需要抓取内容的路径，意思是所有标签下的tr标签的所有a标签的文本内容，是不是有点绕口，其实这就是一个相对路径，注意一个‘/’和两个‘/’的区别，可以分别理解成绝对路径和“所有”~~

第二个爬取的内容为a标签的href属性值，第三个为最后一个tr标签下的所有a标签的href属性值。

看结果吧：

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

一个简单的爬虫实例

相关文章