爬取多个页面的数据
2023-04-18 14:47:42 时间
代码如下:
# -*- coding:utf8 -*- #导入requests库,取别名res import requests as res #导入bs4包,取别名bs from bs4 import BeautifulSoup as bs #导入数据库驱动包 import MySQLdb #声明页面从哪开始 j = 1 #循环遍历每个页面 while j <= 111: ##获取目标网站的网页 #r代表将“”内的所有内容都默认为字符串 path = r”http://www.bengyechina.com/product/enterprise_alllist_0_0_0_” + str(j) + “.html” #请求获取目标网页的html doc = res.get(path) #准备要爬取数据的列表 names = [] imgs = [] #需要bs解析器去解析网页 text = bs(doc.text,”html.parser”) #从网页中查询类标签名为plist的下标为0的所有内容 p1 = text.select(“.plist”)[0] #从类标签名为plist的下标为0的html中查询标签为li的内容中的img中所有内容 img = text.select(“li img”) #声明变量作为下标,并初始化 i = 0 #—————爬取数据结束————— #—————数据写入数据库—————- #连接mysql数据库中的pachong数据库 #connect(“主机名”,”用户
相关文章
- 利用人工智能、物联网传感器和混合云扩展工业 4.0
- 为什么边缘计算在数据驱动的世界中是创新的必要条件?
- 这一份最全的TCP总结,请务必收下
- 面试官:如何理解TCP/IP协议?
- 边缘计算解决什么问题,采用什么模式?
- 边缘计算驱动物联网
- 垂直智能可应对商业人工智能和数据挑战
- 从阿里云视频云全景创新峰会,看内容全视频化时代的云上创新
- 边缘计算与5G对未来渠道业务的影响
- 清科创业重磅发布创投行业SaaS平台PEdata MAX,全新助力募投管退
- 人工智能如何改变医疗保健的未来
- 说一下 HTTP/3 新特性,为什么选择使用 UDP 协议?
- 西班牙电信和微软将私有5G和边缘计算结合在一起,用于工业4.0
- Forrester最新数据流分析报告:阿里云入选强劲表现者象限
- 捕获TCP/IP协议栈数据包的原理
- 边缘计算:最快数据处理背后的技术
- 5种值得考虑的开源云监控工具
- 消费者实现逻辑-kafka知识体系(四)
- 初创公司青睐的八项云服务
- 我国成功研制62比特量子计算原型机 “祖冲之号”