今日代码(20201003)–简单爬虫-简单爬虫代码
代码笔记,仅供参考
利用python爬取安徽省高校名单
因为工作需要,所以我爬取了安徽省高校的名单,并将其保存在csv文件中:
# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-
import requests
from lxml import etree
from fake_useragent import UserAgent
import time
import csv
class SchoolSpider:
def __init__(self):
self.url = ‘http://www.gx211.com/gxmd/gx-ah.html’
def get_ua(self):
return UserAgent().random
def get_page(self):
headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0)’}
res = requests.get(self.url, headers = headers)
html = res.content.decode(‘utf-8’)
print(‘url:’, res.url)
print(‘code:’, res.status_code)
#print(html)
self.get_school_list(html)
def get_school_list(self, html):
html_parse = etree.HTML(html)
xpath = ‘//table//td[@class=”td1″]/a/text()’
s_list = html_parse.xpath(xpath)
#print(s_list)
self.write_ip(s_list)
def write_ip(self, school_list):
with open(‘./output/my_school_name.csv’, ‘w’, newline = ”, encoding = ‘utf-8’) as f:
writer = csv.writer(f)
writer.writerow([‘school’])
for item in school_list:
writer.writerow([item])
def main(self):
self.get_page()
if __name__ == ‘__main__’:
start = time.time()
spider = SchoolSpider()
spider.main()
end = time.time()
print(‘执行时间:%.2f’ % (end–start))
部分结果:
school
安徽大学
中国科学技术大学
合肥工业大学
安徽工业大学
安徽理工大学
安徽工程大学
安徽农业大学
安徽医科大学
蚌埠医学院
皖南医学院
安徽中医药大学
安徽师范大学
阜阳师范大学
安庆师范大学
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击