您现在的位置是：首页 > Python

当前栏目

python爬虫（5）实例（1）

Python 下载

2023-04-18 14:45:12 时间

# -*- coding: utf-8 -*-

# 导入第三方包和模块 import requests from bs4 import BeautifulSoup import os #os是软件自带的，此处用来保存文件夹的功能

# 在本地新建一个文件夹，命名为test_img，用以保存下载的图片 folder = 'test_img' if not os.path.exists(folder): os.makedirs(folder)

# 定义一个函数，用以下载图片 def download(url): response = requests.get(url) name = url.split('/')[-1] #以/为分割符保留最后一段,这个是保存的名字，在下一条中使用，此条只是为了名字，无其他用 f = open(folder + '/' + name + '.jpg', 'wb') f.write(response.content) f.close()

header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

# 网页可以翻19次，相当于改变url，循环19次；然后对每一个页面都执行‘获取src’和‘下载图片’的操作 for i in range(1, 20): url_i = 'https://tieba.baidu.com/p/4064957036?pn=' + str(i) response_i = requests.get(url_i, headers=header) print(url_i) #打印出所有的网页

# 获取第i个页面的url、response类、html、soup，以及该页面所有图片对应的src html_i = response_i.text soup_i = BeautifulSoup(html_i, 'html.parser') imgs_i = soup_i.find_all('img', attrs={'class': 'BDE_Image'})

for img in imgs_i: img_src = img.get('src') print(img_src) download(img_src) print('OK')

本实例的技术难点在于：
1、用for循环表示这个可翻页帖子的19个url；
2、range()表示有序数组；
3、str()强制将整形转化为字符串；
4、温习BeautifulSoup模块中find_all(‘img’, {‘class’: ‘attrs’})与soup.get(‘src’)，来获取所有图片的src的方法。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

python爬虫（5）实例（1）

相关文章