您现在的位置是：首页 > 其他

当前栏目

xpath & <tr><td>

amp gt lt xpath tr TD Br

2023-09-27 14:22:22 时间

python ： 3.6

lxml ： 4.2.1

from lxml.html import etree

test_html = '''
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<body>
<table id="report1">
    <tr rn="1" >
        <td class="report1_1">1</td>
        <td class="report1_1">2<br>3<br>4</td>
    </tr>
    <tr rn="1" >
        <td class="report1_1">1.1</td>
        <td class="report1_1">2.1<br>3.1<br>4.1</td>
    </tr>
</table>
</body>
</html>
'''

if __name__ == '__main__':
    html = etree.HTML(test_html)
    tag1 = html.xpath('/html/body/table/tr/td[1]')
    tag2 =  html.xpath('/html/body/table/tr/td[2]')
    tag3 = html.xpath('/html/body/table/tr/td[2]/text()')
    print('tag1-[0]-->',tag1[0].text)
    print('tag2-[0]-->',tag2[0].text)
    print('tag2-[1]-->', tag2[1].text)
    print('tag3-->',tag3)

    b = [str(i) for i in tag3]
    str = ''.join(b)
    print('tag3-str-->',str)

    print('tag2-->',tag2)
    print('tag2[0]-string-->',tag2[0].xpath('string(.)'))
    print('tag2[1]-string-->',tag2[1].xpath('string(.)'))

tag1-[0]--> 1
tag2-[0]--> 2
tag2-[1]--> 2.1
tag3--> ['2', '3', '4', '2.1', '3.1', '4.1']
tag3-str--> 2342.13.14.1
tag2--> [<Element td at 0x18b9478aec8>, <Element td at 0x18b9478af88>]
tag2[0]-string--> 234
tag2[1]-string--> 2.13.14.1

代码在上面。

简单说一说：

requests配合xpath来抓网站数据的时候，不像selenium+xpath。

selenium有 find_element find_elements，区别是带S ，查找第一个元素，和查找所有元素。

requests只有xpath，简单粗暴的直接查找所有元素。所以tag1，要带下标[0]来输出第一个对象，并且用.text来输出文字信息。

tag2，带下标[0]来输出第一个对象，并且用.text来输出文字信息。但是由于对象中有 标签，所以只能取得第一个 标签前面的数据。

tag3，我们在xpath规则中加入.text()规则，取得这个标签中的文字信息。由于有 标签，文字信息会因为 而分割称为列表。

我们可以自己重组列表，转为字符串：

b = [str(i) for i in tag3]
str = ''.join(b)
print('tag3-str-->',str)

或者不使用text()规则使用xpath('string(.)')：

print('tag2-->',tag2)
print('tag2[0]-string-->',tag2[0].xpath('string(.)'))
print('tag2[1]-string-->',tag2[1].xpath('string(.)'))

两种方式都可以正常获取td标签中带br标签的信息。

猜你喜欢

磁盘串口和并口的区别
《Android 应用案例开发大全（第二版）》——6.4节跨应用程序访问窗口
蓝桥杯刷题第六天
大牛的联系方式
Android中build target，minSdkVersion，targetSdkVersion，maxSdkVersion概念区分
Understanding Docker
《JavaScript入门经典（第6版）》——1.2　服务器端与客户端编程
Another app is currently holding the yum lock； waiting for it to exit...
《JUnit实战（第2版）》—第1章1.2节从零开始
Maya 脚本控制物体自转
Google Earth Engine——Landsat图像在描述全球森林范围和变化方面的时间序列分析结果（2015年）
美图欣赏：一些设计独特的PCB
Java中JDK和JRE的区别是什么？它们的作用分别是什么？
asp.net 2.0 简单实现url重写
POJ 2752 Seek the Name, Seek the Fame
tensorflow如何用gpu训练？
索引是否也能提高UPDATE,DELETE,INSERT速度解释

相关主题

shell &&
&&与&
js || &&
&amp与&
&1的用法
void*&
JS_&&||
MySQL & SQL
++i && i++
&和&&

zl程序教程

当前栏目

xpath & <tr><td><br>

相关文章