您现在的位置是：首页 > 后端

当前栏目

爬虫笔记2

爬虫笔记

2023-09-27 14:27:32 时间

BeautifulSoup

import requests
r = requests.get("http://python123.io/ws/demo.html")
from bs4 import BeautifulSoup

soup = BeautifulSoup(r.text, "lxml")

'''
<html><head><title>This is a python demo page</title></head>
<body>
<p class="title"><b>The demo python introduces several python courses.</b></p>
<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a> and <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>.</p>
</body></html>
'''

#soup.tag 返回第一个tag内容
print(soup.title)
print(soup.a)
#标签名

print(soup.a.parent.name) #p 获取a的父亲的名字
print(soup.a.parent.parent.name) #body

tag_a = soup.a
print(tag_a.attrs) #字典 {'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}
print(tag_a.attrs['class']) #['py1']

print(tag_a.string) # 内容 Basic Python
print(type(tag_a.string)) #<class 'bs4.element.NavigableString'>

print(soup.head.contents) #返回儿子结点信息,为列表
#[<title>This is a python demo page</title>]
print(soup.body.contents) #返回儿子结点信息
print(soup.body.contents[1]) 

print(soup.title.parent) #返回父亲结点信息
#<head><title>This is a python demo page</title></head>
#遍历节点时 if *** is None 不打印

#平行遍历发生在同一个父节点下的各节点间


print(soup.prettify()) #美化的html文档

for link in soup.find_all('a'):
    print(link['href'])
#找所有标签为a的链接

完结。

猜你喜欢

python 序列（list，tuple，str）基本操作
Total Software Deployment为您的企业网络管理软件部署
中国移动研究院副院长杨志强：对SDN和NFV的实践和思考
[新媒体运营]新媒体运营概述【待续】
每天分享三个ChatGPT赚钱技巧（四）
Shiro Realm 权限的验证流程和缓存机制
PS改变图片像素大小（一寸照片变二寸）
collection集合练习笔记
007_swift_求余与区间与循环
助力新能源电池企业数字化采购升级，智能采购管理系统实现订单管理流程化管控
Linux之激活超级用户
Java 7如何操纵文件属性
（经典）tcp粘包分析
TortoiseSVN升级后右键菜单没有TortoiseSVN的相关选项解决方案
React-Native学习指南

相关主题

python-爬虫
爬虫基础
爬虫笔记2
网站反爬虫
爬虫之爬取百度贴吧
爬虫与反爬虫
爬虫实践-01

zl程序教程

当前栏目

爬虫笔记2

BeautifulSoup

相关文章