您现在的位置是：首页 > 后端

当前栏目

爬虫之selenium爬取斗鱼网站

爬虫网站 selenium 爬取

2023-09-11 14:15:15 时间

爬虫之selenium爬取斗鱼网站

示例代码：

from selenium import webdriver
import time

class Douyu(object):

    def __init__(self):
        self.url = 'https://www.douyu.com/directory/all'
        self.driver = webdriver.Chrome()

    def parse_data(self):
        time.sleep(3)
        room_list = self.driver.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li/div/a')
        print(len(room_list))
        data_list = []
        for room in room_list:
            temp = {}

            temp['title'] = room.find_element_by_xpath('./div[2]/div[1]/h3').text
            temp['type'] = room.find_element_by_xpath('./div[2]/div[1]/span').text 
           
            data_list.append(temp)
        return data_list

    def save_data(self, data_list):
        for data in data_list:
            print(data)

    def run(self):
        #  url
        #  driver
        #  get
        self.driver.get(self.url)
        #  用于判断首页是否有广告
        try:
            time.sleep(6)
            self.driver.find_element_by_xpath('/html/body/div[2]/span[1]').click()  【此处需要等待几秒把弹窗关闭】
        except Exception as e:
            print(e)

        while True:
            #  parse
            data_list = self.parse_data()

            #  save
            self.save_data(data_list)

            #  next
            try:
                # el_next = self.driver.find_element_by_xpath('//*[contains(text(),"下一页")]')
                el_next = self.driver.find_element_by_xpath('//*[@id="listAll"]/section[2]/div[2]/div/ul/li[9]/span')
                self.driver.execute_script('scrollTo(110,100000)')
                el_next.click()
            except:
                break
if __name__ == '__main__':
    douyu = Douyu()
    douyu.run()

运行效果：

思路用图：

猜你喜欢

[RxJS] Combination operators: concat, startWith
【算法基础】并查集
练习 1-20 编写程序detab，将输入中的制表符替换成适当数目的空格，使空格充满到下一个制表符终止位的地方。
家政服务小程序实战开发教程019-我的预约功能（已完结）
iOS中动态热修补技术JSPatch
姿态估计0-09：DenseFusion(6D姿态估计)-源码解析（5）-PoseRefineNet网络与loss详解（重点篇）
Atitit.android webview h5运行环境总结
Python排序算法之冒泡排序
最新java开发面试笔试题及答案---图片（面试题系列持续更新中）（1）
java实现第四届蓝桥杯有理数类
【ICML-2022】HM-GNN：Molecular Representation Learning via Heterogeneous Motif Graph NeuralNetworks
Java实现 LeetCode 13 罗马数字转整数
java入门常见问题0010：方法名不能望文生义，容易引起误解
Python3.2官方文档-日志和弱引用
字符编码笔记：ASCII，Unicode 和 UTF-8
Flutter实战之底部导航栏 BottomNavigation
paddle 44 用onnxruntime实现ppyoloe模型的部署（含python和c++版本），支持batchsize
接口自动化，比你想象的要简单
java实现第六届蓝桥杯星系炸弹
MATLAB-高斯滤波的实现
自己做站点(二) 20块钱搞定一个企业站：域名&空间申请
联想拯救者Y9000K用U盘重装系统的方法分享
KMP算法
EasyNVR摄像机无插件直播按需RTSP拉流播放流程详解

相关主题

Python爬虫
python简单爬虫
python-爬虫
爬虫技术实战
网站反爬虫
go爬虫
爬虫解析
打造分布式爬虫
[python爬虫] 百度贴吧
爬虫（一）
Python网络爬虫
爬虫与反爬虫
爬虫工具
node爬虫
Python爬虫四
python-爬虫案例
我是一个爬虫
爬虫1-selenium
百度贴吧爬虫

zl程序教程

当前栏目

爬虫之selenium爬取斗鱼网站

爬虫之selenium爬取斗鱼网站

相关文章