您现在的位置是：首页 > Javascript

当前栏目

scrapy获取html中所有的a链接,使用scrapy获取URL列表，然后在这些URL中抓取内容

HTML 产品

2023-04-18 14:52:29 时间

我需要一个Scrapy Spider来为每个URL(30个产品，所以30个URL)抓取以下页面(https://www.phidgets.com/?tier=1&catid=64&pcid=57)，然后通过该URL进入每个产品并抓取其中的数据。

我的第二部分完全按照我的意愿工作：

import scrapy

class ProductsSpider(scrapy.Spider):

name = "products"

start_urls = [

'https://www.phidgets.com/?tier=1&catid=64&pcid=57',

]

def parse(self, response):

for info in response.css('div.ph-product-container'):

yield {

'product_name': info.css('h2.ph-product-name::text').extract_first(),

'product_image': info.css('div.ph-product-img-ctn a').xpath('@href').extract(),

'sku': info.css('span.ph-pid').xpath('@prod-sku').extract_first(),

'short_description': info.css('div.ph-product-summary::text').extract_first(),

'price': info.css('h2.ph-product-price > span.price::text').extract_first(),

'long_description': info.css('div#product_tab_1').extract_first(),

'specs': info.css('div#product_tab_2').extract_first(),

}

# next_page = response.css('div.ph-summary-entry-ctn a::attr("href")').extract_first()

# if next_page is not None:

# yield response.follow(next_page, self.parse)

但是我不知道如何做第一部分。如你所见，我将主页(https://www.phidgets.com/?tier=1&catid=64&pcid=57)设置为start_url。但是，如何获取我需要抓取的所有30个网址填充到start_urls列表中呢？

猜你喜欢

[打包优化]Webpack体积压缩
Android性能优化篇：Android中如何避免创建不必要的对象
不会一致性 Hash 算法，劝你简历别写搞过负载均衡
[深入浅出]JavaScript GC 垃圾回收机制
软硬皆失：苹果授权操作系统缘何是个“荤招”？
如何将多个数据快速对齐
Android与iOS谁更优秀？消费者必看的五大对决
通过流程挖掘实现卓越运营转型的八个步骤
《连线》：Facebook定义移动互联网运作方式
DataVault软件AES-1024加密算法现实攻击
物联网正在给批发业带来新的商业模式
源站保护
我们总结了十条变化让你了解iOS 10第四个测试版
人工智能和区块链如何修复破碎的供应链
[探索]前端路由Router原理
AI 看唇语，在嘈杂场景的语音识别准确率高达75%
苹果将发布Swift 3.0 公布第四版开发内容
图书馆管理系统程序设计
移动支付技术架构及应用模式探讨
为什么小批量可以使深度学习获得更大的泛化

zl程序教程

当前栏目

scrapy获取html中所有的a链接,使用scrapy获取URL列表，然后在这些URL中抓取内容

相关文章