您现在的位置是：首页 > 其它

当前栏目

selenium 爬豆瓣帖子

selenium 豆瓣帖子

2023-09-14 09:15:49 时间

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Mon Aug 30 19:17:12 2021

@author: ledi
"""

import time
import parsel
import csv
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait

import requests
from lxml import etree
import datetime

from bs4 import BeautifulSoup
import pandas as pd

url = 'https://accounts.douban.com/passport/login?source=group'

browser = webdriver.Chrome()

wait = WebDriverWait(browser, 50)

browser.get(url)

time.sleep(30)

import time

data=[]
for pa in range(10000):
    
    kkt=25*pa
    url='https://www.douban.com/group/707669/discussion?start='+str(kkt)
    # url = 'https://www.douban.com/group/707669/'
    
    browser.get(url)
    
    page = browser.page_source
    
    print(page)
    
    soup = BeautifulSoup(page, "lxml")
    
    # soup = BeautifulSoup(html, "lxml")
    # 查找所有class属性为hd的div标签下的a标签的第一个span标签
    # soup = BeautifulSoup(html, "lxml")
    # 查找所有class属性为hd的div标签
    div_list = soup.find_all('td', class_='title')
    
    
    
    # import time
    # data=[]
    
    dd=pd.read_html(page)[1].values
    time.sleep(3)
    for k in range(len(div_list)):
        print(div_list[k])
        c=str(div_list[k].a).split()
        
        print(c)
        print(len(c))
        print('############')
        c1=c[2].split('=')
        c2=c1[1].split('"')
        
        temp=[c2[1],c[-2],dd[:,2][k]]
        
        
        # temp_html= requests.get(temp[0], headers=headers).text
        browser.get(temp[0])
        temp_html = browser.page_source
        et_html = etree.HTML(temp_html)
        # # 查找所有class属性为hd的div标签下的a标签的第一个span标签
        
    
        urls = et_html.xpath("""//*[@id="topic-content"]/div[2]/h3/span[2]""")
        
        
        
        
        this_time=[each.text.strip() for each in  urls]
        
        
        kkp=temp+this_time
        data.append(kkp)
        print(kkp)
        time.sleep(0.2)
    
    # time.sleep(1)
    


# result = []

猜你喜欢

mysql存储中使用while批量插入数据(批量提交和单个提交的区别)
AjaxControlToolKit显示浏览者本地语言的方法
ps 命令使用总结详解程序员
Oracle数据库中截取千分位数据的技巧（oracle中截取千分位）
表联查MySQL 数据库的两表联查实现（mysql两个）
微信公众号开发-超级简单[通俗易懂]
轻松搞定！25个Linux安装包的安装教程（linux安装包）
从零到壹：Cytoscape插件使用心得~预告篇
如何制定战略？
内存探索Linux开发者查看内存的方法（linuxdev查看）
上线误改视图，修数据修了好几天
敏捷史话（十七）：维基（Wiki）背后的灵感来源—— Ward Cunningham
Linux系统初始化环境后需要做哪些安全工作？

相关主题

Selenium入门
selenium 封装
Selenium 自动化操作
selenium操作浏览器
selenium定位方法

zl程序教程

当前栏目

selenium 爬豆瓣帖子

相关文章