您现在的位置是：首页 > 后端

当前栏目

Python爬虫：selenium和Chrome无头浏览器抓取烯牛数据动态网页

Python Chrome 网页爬虫浏览器数据动态 selenium

2023-09-14 09:07:14 时间

烯牛数据地址：
http://www.xiniudata.com/project/event/lib/invest

打开页面，能正常看到内容，查看源代码发现页面并没有出现我们需要的内容，说明这是异步加载的内容。

数据抓取

方式1：
采用requests或scrapy，拿不到页面数据，api数据加密不好处理

方式2：
采用PhantomJS，尝试多次还是拿不到数据，就算等待很长时间也不行

方式3：
采用splash，方法可参考：Python爬虫：splash的安装与简单示例

方式4：
采用Chrome，有头或无头都可以，本例采用无头浏览器

代码实现


from selenium import webdriver

# 创建chrome参数对象
options = webdriver.ChromeOptions()

# 把chrome设置成无界面模式，不论windows还是linux都可以，自动适配对应参数
options.add_argument('headless')

# 创建chrome无界面对象
driver = webdriver.Chrome(chrome_options=options)

# 访问烯牛数据
url = "http://www.xiniudata.com/project/event/lib/invest"
driver.get(url)

# 等待，让js有时间渲染
driver.implicitly_wait(3)

#打印内容
# print(driver.page_source)

# 解析内容
print(driver.find_element_by_css_selector(".table-body").text)

# 关闭窗口和浏览器
driver.close()
driver.quit()

有js渲染的页面，关键点就是然浏览器等待一会再返回内容，给js一点时间渲染，不然拿不到渲染后的数据

参考
selenium webdriver 之 Chrome -headless set proxy 暨自动化测试中无头谷歌浏览器设置代理

猜你喜欢

javascript基础修炼(11)——DOM-DIFF的实现
SAP CRM WebClient UI Technical profile里timeout 设置
HDOJ 4687 Boke and Tsukkomi 一般图最大匹配带花树+暴力
谈谈IIS与ASP.NET管道
[rxjs] Demystifying Cold and Hot Observables in RxJS
java实现第九届蓝桥杯整理玩具
Python图像处理丨图像的灰度线性变换
安卓逆向4：app加固原理，app脱壳原理
第二人生的源码分析(二十三)人物行走的键盘消息处理
[龙讯8号]龙芯产品再开新花
去除小数后多余的0
Spartacus 4.3.x 版本导入 Cart 到 App Module 构造函数的错误消息
003-2017阿里技术年度精选集
android守护进程
Spring Cloud Consul
〖Python零基础入门篇㉚〗- Python中的循环
Java反编译
面试要求（主要针对技能说明）
关于毕业的一些事情

相关主题

python基础04
Ubuntu安装python
Python创建列表
python--exec

zl程序教程

当前栏目

Python爬虫：selenium和Chrome无头浏览器抓取烯牛数据动态网页

数据抓取

代码实现

相关文章