您现在的位置是：首页 > 后端

当前栏目

第三百三十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式

2023-09-14 08:58:24 时间

第三百三十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式

我们自定义一个main.py来作为启动文件

main.py

#!/usr/bin/env python
# -*- coding:utf8 -*-

from scrapy.cmdline import execute  #导入执行scrapy命令方法
import sys
import os

sys.path.append(os.path.join(os.getcwd())) #给Python解释器，添加模块新路径 ,将main.py文件所在目录添加到Python解释器

execute(['scrapy', 'crawl', 'pach', '--nolog'])  #执行scrapy命令

爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
import urllib.response
from lxml import etree
import re


class PachSpider(scrapy.Spider):
    name = 'pach'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/all-posts/']


    def parse(self, response):
        pass

xpath表达式

1、

2、

3、

基本使用

allowed_domains设置爬虫起始域名
start_urls设置爬虫起始url地址
parse(response)默认爬虫回调函数，response返回的是爬虫获取到的html信息对象，里面封装了一些关于htnl信息的方法和属性

responsehtml信息对象下的方法和属性
response.url获取抓取的rul
response.body获取网页内容
response.body_as_unicode()获取网站内容unicode编码
xpath()方法，用xpath表达式过滤节点
extract()方法，获取过滤后的数据，返回列表

# -*- coding: utf-8 -*-
import scrapy

class PachSpider(scrapy.Spider):
    name = 'pach'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):
        leir = response.xpath('//a[@class="archive-title"]/text()').extract()  #获取指定标题
        leir2 = response.xpath('//a[@class="archive-title"]/@href ').extract() #获取指定url

        print(response.url)    #获取抓取的rul
        print(response.body)   #获取网页内容
        print(response.body_as_unicode())  #获取网站内容unicode编码

        for i in leir:
            print(i)
        for i in leir2:
            print(i)

猜你喜欢

MySQL学习之上传DLL命令详解（mysql上传dll命令）
缺陷报告总结_缺陷报告要素
【说站】java下界通配符的用法
SecureCRTPortable连接Linxu服务器乱码问题2种方式「建议收藏」
经典sql题
携程试验员工周三和周五在家办公：超一半人主动报名
JSON在PHP中的应用介绍
图扑 Web SCADA 智慧钢厂能源监控 HMI
如何在Linux上安装pip？（安装piplinux）
ASML公布扩产计划：EUV光刻机90台/年，DUV光刻机600台/年
力扣——四数之和
spring+activemq的配置详解编程语言
ORA-28396: rekey of enc$ dictionary table failed ORACLE 报错故障修复远程处理
深入了解Linux线程：如何使用PS进行进程管理（linux线程ps）
微服务治理之三维度检测措施
学完就可以去打数模了！线性回归里的回归是什么意思？
卷起来了！如何看待2022算法岗人间地狱？

相关主题

Python文件处理
python – 文件
python 写入文件
python | 读文件

zl程序教程

当前栏目

第三百三十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式

相关文章