您现在的位置是：首页 > 工具

当前栏目

bs4学习

学习 bs4

2023-06-13 09:12:59 时间

爬虫的数据解析包括正则，bs4，xpath，现在学习到了bs4，但是还是有点糊涂，现在根据网上的一些资料深入学习一下。

首先，要安装环境，在终端terminal输入：

pip3 install Beautifulsoup4

pip install lxml

按下回车即可，顺便要安装lxml,其实系统也有自带的解析器，但是bs4自带的解析器lxml更有优势。

使用的时候输入以下就可以导入模块

from bs4 import BeautifulSoup

为了搞清楚标签和属性定位，我截取了一段html的文本来学习他们的用法。

from bs4 import BeautifulSoup

# 截取的用于测试的html文本
html_text = """
<div class="nav-items">
            <ul>
                <li><a href="https://movie.douban.com/cinema/nowplaying/"
                >影讯&购票</a>
                </li>
                <li><a href="https://movie.douban.com/explore"
                >选电影</a>
                </li>
                <li><a href="https://movie.douban.com/tv/"
                >电视剧</a>
"""
soup = BeautifulSoup(html_text, "lxml")
print(soup.find("a"))
#<a href="https://movie.douban.com/cinema/nowplaying/">影讯&amp;购票</a>
print(soup.find("li"))
# <li><a href="https://movie.douban.com/cinema/nowplaying/">影讯&amp;购票</a>
# </li>
print(soup.find("a").text)  #影讯&购票
print(soup.find("li").text)  #影讯&购票
print(soup.find("ul"))
""" <ul>
<li><a href="https://movie.douban.com/cinema/nowplaying/">影讯&amp;购票</a>
</li>
<li><a href="https://movie.douban.com/explore">选电影</a>
</li>
<li><a href="https://movie.douban.com/tv/">电视剧</a>
</li></ul>"""
print(soup.ul)
# 结果同上

# 再放一次方便对照看结果
html_text = """
<div class="nav-items">
            <ul>
                <li><a href="https://movie.douban.com/cinema/nowplaying/"
                >影讯&购票</a>
                </li>
                <li><a href="https://movie.douban.com/explore"
                >选电影</a>
                </li>
                <li><a href="https://movie.douban.com/tv/"
                >电视剧</a>
"""

soup = BeautifulSoup(html_text, "lxml")
print(soup.a)  #打印出第一次a标签出现的信息
# <a href="https://movie.douban.com/cinema/nowplaying/">影讯&amp;购票</a>
print(soup.a.text)  #影讯&购票
print(soup.a.string)  #影讯&购票  只打印标签下的直系内容
print(soup.a.string)  #影讯&购票
print(soup.a["href"]) #https://movie.douban.com/cinema/nowplaying/
print("---------select---------\n")
print(soup.select(".nav-items"))  # 返回的一定是列表
print(soup.select(".nav-items > ul"))
print(soup.select(".nav-items > ul > li > a"))  #返回所有有a标签的列表
""" [<a href="https://movie.douban.com/cinema/nowplaying/">影讯&amp;购票</a>,
 <a href="https://movie.douban.com/explore">选电影</a>,
 <a href="https://movie.douban.com/tv/">电视剧</a>]
"""

html_text = """
<div class="nav-items">
            <ul>
                <li><a href="https://movie.douban.com/cinema/nowplaying/"
                >影讯&购票</a>
                </li>
                <li><a href="https://movie.douban.com/explore"
                >选电影</a>
                </li>
                <li><a href="https://movie.douban.com/tv/"
                >电视剧</a>
"""

soup = BeautifulSoup(html_text, "lxml")
print(soup.select(".nav-items > ul > li > a")[0]) #返回列表中的第一条
#<a href="https://movie.douban.com/cinema/nowplaying/">影讯&amp;购票</a>
print(soup.select(".nav-items > ul > li > a")[0].text)  #影讯&购票 
print(soup.select(".nav-items > ul > li > a")[0].get_text())  #影讯&购票
print(soup.select(".nav-items > ul > li > a")[0].string)  #影讯&购票
print(soup.select(".nav-items > ul > li > a")[0]["href"]) # 打印href中内容
#https://movie.douban.com/cinema/nowplaying/
print(soup.select(".nav-items > ul a"))  
"""[<a href="https://movie.douban.com/cinema/nowplaying/">影讯&amp;购票</a>, 
 <a href="https://movie.douban.com/explore">选电影</a>, 
 <a href="https://movie.douban.com/tv/">电视剧</a>]

嗯感觉更加理解了一丢丢，现在要继续往下学了，希望能早日学会爬虫，然后再学习点其他的东西，可能要开始学习html了吧！唉，越学发现自己越无知是真的，我还想学习Django，面对着未知的东西又十分的渴望，比如Java，c++，numpy, panda之类的，好希望有一天能够都掌握，但还是慢慢来吧...

猜你喜欢

优化JavaScript代码的方法小结
jquery扩展方法详解编程语言
校园网自动认证python脚本的实现 - wuuconix's blog
chatgpt 图像生成试用版接口文档（中文文档）
解决MySQL中PID报错问题（mysql中pid报错）
【踩坑】Jupyter调用TensorFlow 导致kernel restarting
Linux下除法实现及应用技巧（linux除法）
MySQL创建表出现错误的解决方案（mysql创建表错误）
走进平安智慧医疗生态圈：科技撬动医疗的乘数效应
Oracle不容忽视：索引不等于全部（oracle不等于索引）
2022年美国专利申请量排名：台积电/华为/京东方进入前十！IBM申请量大跌44%！
Linux 内存中的缓冲区（Buffer）与缓存（Cache）
进化出粘性的脚趾开启了蜥蜴们的长期树上生活
判断及设置浏览器全屏模式
JQuery,Extjs,YUI,Prototype,Dojo等JS框架的区别和应用场景简述
【Linux 内核内存管理】物理分配页 ⑥ ( get_page_from_freelist 快速路径调用函数源码分析 | 检查内存区域水线 | 判定节点回收 | 判定回收距离 | 回收分配页 )
Redis重启后所有都不复存在（redis重启就没有了）
MySQL注册失败，err错误提示（.err mysql）

zl程序教程

当前栏目

bs4学习

相关文章