您现在的位置是：首页 > 后端

当前栏目

爬虫日记(67)：Scrapy的XMLFeedSpider使用

爬虫 scrapy 日记 67 使用

2023-09-14 09:10:04 时间

在前面我们使用一般的方式来抓取过新闻，那是基于普通的urllib和beautifulsoup组件来实现的，需要写比较多的代码。由于RSS是一种标准格式，这样我们就可以使用标准类抽取网页内容，不需要从头开始写这些代码。

简易信息聚合（也叫聚合内容）是一种基于XML的标准，在互联网上被广泛采用的内容包装和投递协议。RSS(Really Simple Syndication)是一种描述和同步网站内容的格式，是使用最广泛的XML应用。RSS搭建了信息迅速传播的一个技术平台，使得每个人都成为潜在的信息提供者。发布一个RSS文件后，这个RSS Feed中包含的信息就能直接被其他站点调用，而且由于这些数据都是标准的XML格式，所以也能在其他的终端和服务中使用，是一种描述和同步网站内容的格式。

让我们看一个简单的 RSS 文档：

<?xml version="1.0" encoding="ISO-8859-1" ?>

<rss version="2.0">



<channel>

  <title>W3School Home Page</title>

  <link>http://www.w3school.com.cn</link>

  <description>Free web building tutorials</description>

  <item>

    <title>RSS Tutorial</title>

    <link>http://www.w3school.com

猜你喜欢

Java类Executors详解
GaussDB(for Redis)揭秘：Redis存算分离架构最全解析
如何优化数据库，如何提高数据库的性能?
idea中git git pull push需要反复输入密码
21、缓存设计
在shell中判断hive查询记录数大小
java学习笔记13--反射机制与动态代理
SAP 电商云 Spartacus UI product 明细页面的路由配置
我的工作日志 2020年11月10日星期二
图像ocr识别（一）

相关主题

Python爬虫原理
爬虫数据采集
爬虫框架scrapy
爬虫技术
爬虫
网络爬虫详解

zl程序教程

当前栏目

爬虫日记(67)：Scrapy的XMLFeedSpider使用

相关文章