Python多线程采集百度相关搜索关键词
2023-09-14 08:57:34 时间
百度相关搜索关键词抓取,读取txt关键词,导出txt关键词
#百度相关搜索关键词抓取,读取txt关键词,导出txt关键词 # -*- coding=utf-8 -*- import requests import re import time from multiprocessing.dummy import Pool as ThreadPool #百度相关关键词查询 def xgss(url): headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" } html=requests.get(url,headers=headers).text #print(html) ze=r'<div id="rs"><div class="tt">相关搜索</div><table cellpadding="0">(.+?)</table></div>' xgss=re.findall(ze,html,re.S) #print(xgss) xgze=r'<th><a href="(.+?)">(.+?)</a></th>' sj=re.findall(xgze,str(xgss),re.S) #print(sj) gjc='' for x in sj: print(x[1]) gjc=gjc+x[1]+'\n' # 导出关键词为txt文本 with open(".\gjcsj.txt", 'a', encoding='utf-8') as f: f.write(gjc) print("-----------------------------------") return gjc print("程序运行,正在导入关键词列表!!!") print("-----------------------------------") # 导入要搜索的关键词txt列表 urls = [] data = [] for line in open('.\gjc.txt', "r", encoding='utf-8'): data.append(line) print("导入关键词列表成功!") print("-----------------------------------") #转换关键词为搜索链接 for keyword in data: url = 'https://www.baidu.com/s?wd=' + keyword urls.append(url) print("采集百度相关搜索关键词开启!") print("...................") #多线程获取相关关键词 try: # 开4个 worker,没有参数时默认是 cpu 的核心数 pool = ThreadPool() results = pool.map(xgss, urls) pool.close() pool.join() print("采集百度相关搜索关键词完成,已保存于gjcsj.txt!") except: print("Error: unable to start thread") print("8s后程序自动关闭!!!") time.sleep(8)
相关文章
- Python虚拟环境的安装和配置-virtualenv与windows下多个python版本共存
- 查看python对象的属性
- pyppeteer(python版puppeteer)基本使用
- python网络编程初级
- Python 字符串_python 字符串截取_python 字符串替换_python 字符串连接
- 华为OD机试 - 完美走位(Java & JS & Python)
- Python语言学习:Python语言学习之python包/库package的简介(模块的封装/模块路径搜索/模块导入方法/自定义导入模块实现华氏-摄氏温度转换案例应用)、使用方法、管理工具之详细攻略
- Python编程语言学习:包导入和模块搜索路径(包路径)简介、使用方法(python系统环境路径的查询与添加)之详细攻略
- Python编程语言学习:python编程语言中重要函数讲解之map函数等简介、使用方法之详细攻略
- Python之ffmpeg-python:ffmpeg-python库的简介、安装、使用方法之详细攻略
- 已解决2.Set PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python (but this will use pure-Python parsing and wi
- 已解决2. Set PROTOCOL_BUPFERS_PYTHON_iMPLEMENTATION=python (but this will use pure-Python parsing and w
- 〖Python零基础入门篇(54)〗- 文件的应用-序列化与反序列化
- 〖Python自动化办公篇⑲〗 - python实现邮件自动化 - 邮件发送
- 【华为OD机试 2023】快递投放问题(C++ Java JavaScript Python)
- Python编程:twine模块打包python项目上传pypi
- Python在函数中使用*和**接收元组和列表
- 〖Python自动化办公篇⑲〗 - python实现邮件自动化 - 邮件发送
- Python tips:数据类型及类型判断 type(), isinstance(), isalpha()等
- 【Python实战】 ---- python 实现 CSDN 的定时自动签到
- python 爬虫之路教程