您现在的位置是：首页 > Python

当前栏目

Python爬虫，WP站图片PY多线程下载爬虫

Python 线程

2023-03-31 10:31:00 时间

一个简单的Python爬虫，适合学习参考练手使用，由于详情页图片较多，故简单的应用了多线程下载图片，目标站点为WordPress程序，按照流程获取都能成功！

爬取思路

搜索入口-列表页链接-详情页-获取图片

以关键词搜索获取搜索结果列表页，从列表页获取到所有的详情页链接，通过遍历详情页，获取到详情页上的所有图片，进行下载保存！

爬取过程

搜索列表页获取

关于搜索列表页获取，需要注意观察网址的变化情况，尤其以列表首页以及第二页的变动为主，也就是总结网址链接变动规律，通过观察测试获得的规律，通过Python来模拟组合实现一致的url网址链接！

构造搜索列表页源码参考：

for page in range(1,37):
    if page==1:
        url="http://www.shejijingsai.com/?s=%E6%AF%95%E4%B8%9A%E5%B1%95"
    else:
        url=f'http://www.shejijingsai.com/page/{page}?s=%E6%AF%95%E4%B8%9A%E5%B1%95'

列表页链接获取

关于列表页上的链接获取，直接用xpath获取即可，需要注意的是，获取到的网址链接是否为完整链接，如是否却是了主域名，或者确实了https等，如果有缺失，补上即可！

列表页链接xpath获取参考：

hrefs=tree.xpath('//div[@class="article"]/h2/a/@href')

详情页数据解析

详情页数据获取，这是关键，这里我们需要拿到的是所有图片的链接地址，当然考虑到存储，这里本渣渣连标题一起获取到，方便存储和分类图片数据！

详情页图片链接xpath获取参考：

imgs=tree.xpath('//div[@class="context"]//img/@src')

标题xpath获取参考：

h1=tree.xpath('//h1/text()')[0]

注意，由于需要将标题作为存储文件夹名，需要对特殊字符进行过滤或者处理！

存储文件夹标题字符处理参考：

pattern = r"[/\:*?"<>|]"
h1 = re.sub(pattern, "_", h1)  # 替换为下划线

图片下载保存

关于图片的下载保存，需要获取或者说准备基本的三个参数，图片文件的真实链接，图片文件名，图片存储路径，而往往图片文件名大部分都是可以通过图片文件链接后缀，也就是文件名后缀来拼接存储保存！

当然某些时候，你还需要考虑到某些特殊图片链接，这些都是需要针对实际来进行匹配和处理的！

图片文件名处理参考：

imgurl = img
if "?" in img:
    imgn = img.split('?')[0]
    imgname = imgn.split('/')[-1]
else:
    imgname=img.split('/')[-1]

图片下载处理参考：

print(f">> 正在下载图片：{imgname} ..")
headers={
    "User-Agent":UserAgent().random
}
r=requests.get(imgurl,headers=headers,timeout=10)
time.sleep(1)
print(r.status_code)
with open(f'{path}{imgname}','wb') as f:
    f.write(r.content)
print(f">> 下载图片：{imgname} 完成！")

多线程下载图片处理参考：

threadings=[]
for img in imgs:
    t=threading.Thread(target=self.get_img,args=(img,path))
    threadings.append(t)
    t.start()

for x in threadings:
    x.join()

print(">> 多线程下载图片完成！")

运行效果

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

Python爬虫，WP站图片PY多线程下载爬虫

爬取思路

爬取过程

运行效果

相关文章