您现在的位置是：首页 > Javascript

当前栏目

爬虫系列：数据采集

网站代码

2023-02-26 10:16:17 时间

在上一期，主要讲解了：连接网站与解析 HTML

上一期只是一个简单的例子，获取了网站的一小部分内容，本期开始讲解需要获取网站的所有文章列表。

在开始以前，还是要提醒大家：在网络爬虫的时候，你必须非常谨慎地考虑需要消耗多少网络流量，还要尽力思考能不能让采集目标的服务器负载更低一点。

本次示例采集The ScrapingBee Blog博客的文章。

在做数据采集以前，对网站经行分析，看看代码结构。

需要采集的部分是一个个的小 card 组成，截图如下：

爬虫系列：数据采集

获取所有卡片的父标签之后，循环单个卡片的内容：

爬虫系列：数据采集

单个卡片的内容，就是我们需要的内容，整理完思路之后，开始完成代码：

首先我们还是复用上一期网站连接的代码：

def __init__(self):

self._target_url = 'https://www.scrapingbee.com/blog/' self._init_connection = connection_util.ProcessConnection()

以上代码定义了一个被采集的网址，同时复用上一期的网站连接代码。

# 连接目标网站，获取内容 get_content = self._init_connection.init_connection(self._target_url)

连接到上面定义的目标网站，并获取网站的内容。

if get_content:     parent = get_content.findAll("section", {"class": "section-sm"})[0]     get_row = parent.findAll("div", {"class": "col-lg-12 mb-5 mb-lg-0"})[0]

如果存在内容，对网站内容的标签经行查找，以上是获取所有 card 的父标签，获取具体网站结构可以自己查看网站的完整内容。

    get_child_item = get_row.findAll("div", {"class": "col-md-4 mb-4"})

获取所有小卡片。

    for item in get_child_item:         # 获取标题文字         get_title = item.find("a", {"class": "h5 d-block mb-3 post-title"}).get_text()         # 获取发布时间         get_release_date = item.find("div", {"class": "mb-3 mt-2"}).findAll("span")[1].get_text()         # 获取文章描述         get_description = item.find("p", {"class": "card-text post-description"}).get_text()

之后对获取的小卡片经行遍历，获取每个卡片的文章的标题，发布时间，文章描述。

以上从网站结构开始分析，到具体代码实现，这是爬虫抽取网站内容的一个基本思路。

每个网站不同，结构也会有所不同，所以要针对性的编写代码。

以上代码已托管在 Github，地址：https://github.com/sycct/Scrape_1_1/

文章来源：爬虫识别 – 爬虫系列：数据采集

本站部分内容转载自网络，版权属于原作者所有，如有异议请联系QQ153890879修改或删除，谢谢！
转载请注明原文链接：爬虫系列：数据采集

你还在原价购买阿里云、腾讯云、华为云、天翼云产品？那就亏大啦！现在申请成为四大品牌云厂商VIP用户，可以3折优惠价购买云服务器等云产品，并且可享四大云服务商产品终身VIP优惠价，还等什么？赶紧点击下面对应链接免费申请VIP客户吧：

1、点击这里立即申请成为腾讯云VIP客户

2、点击这里立即注册成为天翼云VIP客户

3、点击这里立即申请成为华为云VIP客户

4、点击这里立享阿里云产品终身VIP优惠价

猜你喜欢

R语言用Copulas模型的尾部相依性分析损失赔偿费用|附代码数据
2023-01-10：智能机器人要坐专用电梯把货物送到指定地点，整栋楼只有一部电梯，并且由于容量限制智能机器人只能放下一件货物，给定K个货物，每个货物都有所
java企业人事管理系统企业工资考勤系统
[NISACTF 2022]easyssrf解题思路
车辆逆行识别检测系统
server2019+vs2022+cuda11.4测试CUDA Samples示例
Blender导出glb,NLA轨道分片段裁剪设置不生效
Progressive Relation Learning for Group Activity Recognition
Redis缓存何以一枝独秀？(2) —— 聊聊Redis的数据过期、数据淘汰以及数据持久化的实现机制
学习小组Day2笔记-毽子
Centos7安装NPM
深圳市友浩达科技有限公司CTO 张善友入选 2022 中国开源先锋 33 人
阶段性能力思考
大数据NiFi（九）：NiFi集群页面的添加、配置处理器操作
day2-白雪
Fiddler - 夜神模拟器证书安装App抓包
为什么说DFSS才是预防问题发生的根本手段？
机器人/人工智能/就业形势2023
小样本利器5. 半监督集各家所长：MixMatch，MixText，UDA，FixMatch
DCP 7080d清零,解决墨粉用尽打开前盖更换墨粉盒！粉盒清零更换墨盒步骤

zl程序教程

当前栏目

爬虫系列：数据采集

相关文章