您现在的位置是：首页 > Python

当前栏目

python:使用xpath获取想要的数据

2023-02-18 16:47:49 时间

页面返回的element是非常多的东西，有很多并不是我们所需要的，所以需要对数据进行筛选。

这里引入一个第三方模板：lxml

1.引入前需要安装，可以通过命令行：pip install lxml或者直接在编辑器搜索模板进行安装。

2.安装成功后：需要在代码顶部引入。

from lxml import etree

3.代码如下：

import requests
from lxml import etree

url = "https://movie.douban.com/chart"
headers = {
    "Referer": "//m.douban.com/movie/",
    'User-Agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/68.0.3440.75 Safari/537.36"}
response = requests.get(url, headers=headers)
con = response.content.decode()
html = etree.HTML(con)
ret = html.xpath("//div[@class='indent']/div/table")
for table in ret:
    item = {}
    item['title'] = table.xpath(".//div[@class='pl2']/a/text()")[0].replace("/","").strip()
    item['href'] = table.xpath(".//div[@class='pl2']/a/@href")[0]
    item['src'] = table.xpath(".//a[@class='nbg']/img/@src")[0]
    print(item)

requests模块用来模拟浏览器发送请求，etree用来筛选数据。

strip()用来移除首尾的空格。replace("/","")表示用空字符来替换"/"，

需要注意的是在循环时路径前必须是对于当前路径，也就是必须加//前必须加.

4.输出如下

注：谷歌浏览器也提供了xpath插件，可以在谷歌应用商店进行下载，安装后就可以直接在页面上使用了。

猜你喜欢

双向链表排序，复杂度O(nlogn)
一次服务器系统的恢复过程-grubx64.efi文件丢失和黑屏
word2vec中文词向量结合PCA算法在二维空间下可视化分析-代码
Vue双向绑定原理解析，理解发布订阅难点问题！
nginx报403 forbidden错误
h5页面实现扫码功能
面试官终极拷打-滴滴篇
PC端如何实现页面引导
使用JQuery和bootstrap-select实现世界城市的三级联动（中英互译）
class、case class、object、case object的区别
ThreadLocal详解
全连接队列和半连接队列
面试官终极拷打-阿里篇
面试官终极拷打-腾讯篇
我是如何一步步拿到大厂offer的
SAP UI5 应用里一些容器控件的介绍
SAP UI5 应用里 FlexBox 控件的设计原理
SAP UI5 应用 FlexBox 控件 growFactor 的使用方法
CSS Flex 布局的引入背景
CSS Flex 布局的 flex-direction 属性讲解

zl程序教程

当前栏目

python:使用xpath获取想要的数据

相关文章