Python爬虫:selenium和Chrome无头浏览器抓取烯牛数据动态网页
2023-09-14 09:07:14 时间
烯牛数据地址:
http://www.xiniudata.com/project/event/lib/invest
打开页面,能正常看到内容,查看源代码发现页面并没有出现我们需要的内容,说明这是异步加载的内容。
数据抓取
方式1:
采用requests或scrapy,拿不到页面数据,api数据加密不好处理
方式2:
采用PhantomJS,尝试多次还是拿不到数据,就算等待很长时间也不行
方式3:
采用splash,方法可参考:Python爬虫:splash的安装与简单示例
方式4:
采用Chrome,有头或无头都可以,本例采用无头浏览器
代码实现
from selenium import webdriver
# 创建chrome参数对象
options = webdriver.ChromeOptions()
# 把chrome设置成无界面模式,不论windows还是linux都可以,自动适配对应参数
options.add_argument('headless')
# 创建chrome无界面对象
driver = webdriver.Chrome(chrome_options=options)
# 访问烯牛数据
url = "http://www.xiniudata.com/project/event/lib/invest"
driver.get(url)
# 等待,让js有时间渲染
driver.implicitly_wait(3)
#打印内容
# print(driver.page_source)
# 解析内容
print(driver.find_element_by_css_selector(".table-body").text)
# 关闭窗口和浏览器
driver.close()
driver.quit()
有js渲染的页面,关键点就是然浏览器等待一会再返回内容,给js一点时间渲染,不然拿不到渲染后的数据
参考
selenium webdriver 之 Chrome -headless set proxy 暨 自动化测试中无头谷歌浏览器设置代理
相关文章
- 通过pycharm安装python_python pycharm安装
- python 生成数组_Python创建数组「建议收藏」
- python十进制转换_Python 进制转换
- python fileinput_Python之fileinput模块学习「建议收藏」
- Python入门系列(十)一篇学会python文件处理
- python爬虫全解
- python读取pkl_Python 读取文件
- python调用通达信公式_通达信公式-主力雷达Python化[通俗易懂]
- python制作自动交易程序_Python如何实现自动化交易
- Python绘制旭日图_python绘制散点图
- Python编程经典案例【考题】公司奖金发放
- 【Python常用函数】一文让你彻底掌握Python中的sorted函数
- 【测试开发】python系列教程:Python 运算符
- Python使用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模拟进行股价预测|附代码数据
- Python创建包,导入包(入门必读)
- 小白的Python之路 day5 python模块详解及import本质编程语言
- 学习Python精通SQL Server操作技巧(python操作sqlserver)
- 在Linux上搭建Python开发环境(linux搭建python环境)
- python工具——MyQR详解编程语言
- python之协程详解编程语言
- 如何在Linux中安装Python?(linux安装python)
- Python实现的检测网站挂马程序
- 跟老齐学Python之集成开发环境(IDE)