Python:使用readability-lxml 提取网页标题和主体内容
2023-09-14 09:07:15 时间
github: https://github.com/buriy/python-readability
pypi: https://pypi.org/project/readability-lxml/
安装
$ pip install readability-lxml
代码示例
# -*- coding: utf-8 -*-
from readability import Document
import requests
url = "https://blog.csdn.net/mouday/article/details/94021769"
response = requests.get(url)
response.encoding = "utf-8"
doc = Document(response.text)
print(doc.title()) # 标题
print(doc.summary()) # 主体内容
尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确
相关文章
- python怎么安装pandas库_panda 数据处理
- 在pycharm中如何新建Python文件?_github下载的python源码项目怎么用
- python解压bz2文件命令,在Python中解压缩.bz2文件
- 支持向量机(SVM)的分析及python实现「建议收藏」
- 符合python命名规范的标识符是什么_Python标识符命名规范
- 【测试开发】python系列教程:第一个Python程序
- python读取pkl_Python读取文件的一段内容
- Python网页爬取_在pycharm里面如何爬取网页
- 在python中用来安装第三方库的常用工具_什么库用于安装管理Python扩展包
- python设置时间过期改变状态_Python Redis设置过期时间「建议收藏」
- 用Python自动生成数据日报!
- Python 寒假实训 Day1
- Python数据可视化入门教程
- python-协程并发-多个协程的调度(一)
- python-Python与SQLite数据库-使用Python执行SQLite查询(二)
- python 函数参数传递的问题详解程序员
- python将文本转换成图片输出详解编程语言
- python 与redis详解编程语言
- Linux创建Python文件的步骤(linux新建python文件)
- Python Django框架是什么?
- Linux环境下Python开发的历程(linux与python)
- Python实现MySQL数据库的读取(python读取mysql)
- Python操作MySQL数据库的必备模块mysqlpython(mysql_python)
- Python中处理unchecked未捕获异常实例