您现在的位置是：首页 > 后端

当前栏目

爬虫日记(6)：beautifulsoup的基本使用2

爬虫基本日记 BeautifulSoup 使用

2023-09-14 09:10:04 时间

前面已经介绍了怎么样下载beautifulsoup库，以及初步地使用它，本文将深入一些来学习它。我们要使用beautifulsoup库，大部分的原因就是直接去搜索HTML文本很费力气，用了这个库之后就可以快速地查找到合适的元素。

beautifulsoup库为了方便地去查找到指定的元素，它需要遍历整个HTML文本，然后把它们生成一串python对象，再把这些对象构建成一颗树。Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。

要产生beautifulsoup对象，那么可以使用两种办法，一种是直接输入HTML或XML文本，另外一种是传入文件句柄。

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data<

猜你喜欢

第1讲：在Windows中安装Python开发环境以及Pycharm软件
简单工厂模式
调试GPU相关代码
Qt音视频开发37-识别鼠标按下像素坐标
安装CDH6.3版本的时候遇到 ‘ERROR main:com.cloudera.server.cmf.Main: Server failed’的解决方案
力扣：前缀和、差分题目
【OpenCV 例程200篇】35. 图像的投影变换（边界填充）
【维生素C语言】经典动态内存分配笔试题（题目+答案+详解）
[JUnit] Introduce to Junit and it annotations
【项目实战】Python基于卷积神经网络CNN模型和VGG16模型进行图片识别项目实战
论文笔记：An Experimental Comparison of Performance Metrics for Event Detection Algorithms in NILM(2)
普通索引和唯一索引，难道还分不清
数据的图表展示
《Android源码设计模式》----面向对象六大原则
Apache HttpClient库的日志级别设置原理
谈谈激活函数以零为中心的问题
使用NSURLConnection实现大文件断点下载
Unable to find method ‘com.android.build.gradle.tasks.factory.AndroidJavaCompile.setDependencyCacheD
Android培训班(61)dex文件格式2
c/c++ 动态申请数组

相关主题

Python爬虫教程
多线程爬虫
爬虫笔记1
什么是爬虫脑
JSOUP 爬虫

zl程序教程

当前栏目

爬虫日记(6)：beautifulsoup的基本使用2

相关文章