selenium 爬豆瓣帖子
selenium 豆瓣 帖子
2023-09-14 09:15:49 时间
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Mon Aug 30 19:17:12 2021
@author: ledi
"""
import time
import parsel
import csv
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import requests
from lxml import etree
import datetime
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://accounts.douban.com/passport/login?source=group'
browser = webdriver.Chrome()
wait = WebDriverWait(browser, 50)
browser.get(url)
time.sleep(30)
import time
data=[]
for pa in range(10000):
kkt=25*pa
url='https://www.douban.com/group/707669/discussion?start='+str(kkt)
# url = 'https://www.douban.com/group/707669/'
browser.get(url)
page = browser.page_source
print(page)
soup = BeautifulSoup(page, "lxml")
# soup = BeautifulSoup(html, "lxml")
# 查找所有class属性为hd的div标签下的a标签的第一个span标签
# soup = BeautifulSoup(html, "lxml")
# 查找所有class属性为hd的div标签
div_list = soup.find_all('td', class_='title')
# import time
# data=[]
dd=pd.read_html(page)[1].values
time.sleep(3)
for k in range(len(div_list)):
print(div_list[k])
c=str(div_list[k].a).split()
print(c)
print(len(c))
print('############')
c1=c[2].split('=')
c2=c1[1].split('"')
temp=[c2[1],c[-2],dd[:,2][k]]
# temp_html= requests.get(temp[0], headers=headers).text
browser.get(temp[0])
temp_html = browser.page_source
et_html = etree.HTML(temp_html)
# # 查找所有class属性为hd的div标签下的a标签的第一个span标签
urls = et_html.xpath("""//*[@id="topic-content"]/div[2]/h3/span[2]""")
this_time=[each.text.strip() for each in urls]
kkp=temp+this_time
data.append(kkp)
print(kkp)
time.sleep(0.2)
# time.sleep(1)
# result = []
相关文章
- 频次最高的38道selenium面试题及答案(下)[通俗易懂]
- Selenium的Web自动化测试(送源码)
- 如何在pycharm中安装selenium「建议收藏」
- Selenium:Chrome、Edge、Firefox、Opera、Safari常用WebDriver下载安装[通俗易懂]
- 【爬虫】使用Selenium爬取升学e网通网站的近几年大学录取情况
- selenium自动化测试实战基于python_初级java工程师要求
- selenium最大化浏览器-Web UI自动化测试之Selenium工具篇
- selenium最大化浏览器-Selenium第三遍一些简单的元素操作(1)
- 软件测试|selenium css定位
- Selenium IDE 命令使用——断言
- selenium 自动化测试 Chrome 大于 63 版本 不能重定向问题解决办法
- Python之selenium模块
- selenium-server-standalone 分布式自动化测试 搭建
- Selenium 如何定位 JavaScript 动态生成的页面元素
- Python3.x:Selenium+PhantomJS爬取带Ajax、Js的网页详解编程语言
- 使用 Selenium 自动化 Web 浏览器