您现在的位置是：首页 > Python

当前栏目

python爬网易新闻

Python

2023-04-18 14:44:01 时间

脚本之家

你与百万开发者在一起

python爬网易新闻

作者：江一

出品 | 脚本之家(ID：jb51net)

网络爬虫是帮助我们抓取互联网上有用信息的利器。如果你有一点python基础，实现一个简单的爬虫程序并不难。今天，我们以一个实际的例子——爬取网易新闻，重点介绍使用 BeautifulSoup 对HTML进行解析处理。

1.寻找数据特征

网易新闻的网址 URL 为：https://www.163.com/我们打开网页看看：

python爬网易新闻

我们需要爬取这个页面每一条新闻的标题，鼠标右击一条新闻的标题，选择“检查元素”，出现下图的窗口：

python爬网易新闻

图片中蓝框的位置就是那一条新闻标题在 HTML 中的结构、位置和表现形式： ,它上一级元素为：，再上一级元素为：

再上一级元素为：

我们再看另一条新闻的标题，发现它的结构和之前我们分析的新闻标题的结构是一样的。通过这些信息，我们就可以确定新闻标题在 HTML 文档中的位置。接下来，我们开始使用 Python 对网易新闻标题进行爬取。

2.编写爬取代码

首先呈上完整的代码：

python爬网易新闻

运行程序，获取到的部分结果为如下所示：

python爬网易新闻

这正是我们所需要的。虽然代码很简单，但还是做一点点讲解，方便刚接触的同学理解。

3.逐行解析代码

# coding:utf-8

首先，我们定义了文件的编码形式为 UTF-8，以避免一些编码错误导致中文乱码。importrequests

frombs4importBeautifulSoup

然后，我们引入了相关的模块，requests 用于 HTTP 请求，BeautifulSoup 用于解析 HTML 响应。

url ='https://www.163.com/'

设置一个变量 url，值为网易新闻的 URL 。wbdata = requests.get(url).text

使用 requests.get()对 URL 发起 GET 方式的 HTTP 请求，并使用 text()方法获取响应的文本内容，最后将其赋值给变量 wbdata。

soup =BeautifulSoup(wbdata,'lxml')

使用 BeautifulSoup 对响应文本 wbdata 进行解析处理，这里使用的是 lxml 库，如何没有安装，可以使用 Python 自带的 html.parser，效果也是一样的。news_titles = soup.select('div>ul>li>a')

在解析后的文本中，使用select选择器，在文本中选择指定的元素，通常我们还会使用find() 和 findall()方法来进行元素选择。这一步返回的为一个列表，列表内的元素为匹配的元素的 HTML 源码。

forninnews_titles:

title = n.get_text()

link = n.get('href')

data = {

'标题':title,

'链接':link

}

print(data)

对结果列表进行遍历，再从遍历的元素中提取出数据，get('href')表示获取属性名为“hre的属性值，get_text()表示获取标签的文本信息。这样，一个简单的网易新闻爬虫就完成了。

如果想学习更多 requests 模块和 BeautifulSoup 模块的内容，它们的官方文档将是最好的指南。

参考文档：1.requests 官方文档(中文):

http://docs.python-requests.org/zh_CN/latest/

2.BeautifulSoup 文档(中文):

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

作者：江一

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

python爬网易新闻

相关文章