第14.1节 通过Python爬取网页的学习步骤
如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的:
一、 了解HTML语言及css知识
这方面的知识请大家通过w3school 去学习,老猿对于html总结了部分基础知识内容,在《第14.2节 HTML知识简介》进行介绍,其他的大家到w3school 去学习。
二、 学习http协议相关的知识
需要了解url的构成、http协议头的结构、http协议支持的get方法等内容。这方面推荐大家学习如下老猿转发的博文:
三、 学习cookies相关知识
要登录网站爬取信息,按现在绝大多数网站的会话管理机制,cookies是必不可少的,了解cookies并利用cookies实现网站登录管理。这方面推荐大家学习如下老猿转发的博文:
四、 分析浏览器访问网站网址的过程,如是否需要先登录、是否有代理、是否多次交互等,可以通过浏览器来获取网站访问信息来分析访问过程,这个与具体要爬取的网站及爬取内容相关。老猿将介绍通过IE11及google浏览器获取网站访问信息的方法;
五、 学习Python访问web网站编程的知识,这个老猿主要介绍使用urllib模块相关方法读取网页内容;
六、 学习网页解析的方法,老猿将比较详细BeautifulSoup的使用;
七、 分析准备爬取网页内容的结构,获取网页内容后,根据爬取内容的要求针对性进行分析;
八、 分析怎么完成爬取自己感兴趣内容的http交互过程。
其中最后两步有可能是交替的,有可能爬取一个网页分析其结构解读内容,再根据解读内容爬取下一个网页。老猿将以此为主线介绍爬虫相关的知识,但第一、二步就不介绍了。
老猿Python,跟老猿学Python!
博客地址:https://blog.csdn.net/LaoYuanPython
老猿Python博客文章目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036
请大家多多支持,点赞、评论和加关注!谢谢!
相关文章
- Python爬虫之-动态网页数据抓取
- Python多线程_thread和Threading
- python并发编程之Queue线程、进程、协程通信(五)
- Python基础之:数字字符串和列表
- Python 爬取网页数据的两种方法
- 零基础转行想要从事python开发方面的工作,应该怎么学?或许你可以看看这个!
- Python扩展库Numpy最重要的对象ndarray名称的来历
- 《精通Python网络爬虫:核心技术、框架与项目实战》——3.4 网页分析算法
- How to export Excel files in a Python/Django application
- 《树莓派Python编程入门与实战(第2版)》——1.6 让你的树莓派正常工作
- python 不定长参数*args
- 使用 Python 和 TensorFlow 的图像分类基础知识之使用 CIFAR-10 数据集构建 CNN 模型
- python 代码库之uni编码转化为unicode的字符串
- python爬虫入门urllib库的使用
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)(转)
- Python实例---模拟微信网页登录(day2)
- Python学习---模拟微信网页登录180410
- Python学习---网页爬虫[下载图片]
- 华为OD机试 - 叠放书籍(Python) | 机试题+算法思路+考点+代码解析 【2023】
- python 访问 网页 获得源码
- python爬虫 requests.get()返回值与html网页不一致
- Python 框架 之 Django 如何取消404错误的调试界面,设置自己的网页404找不到界面(网页正式发布时候使用)
- Python 读取照片的信息:拍摄时间、拍摄设备、经纬度等,以及根据经纬度通过百度地图API获取位置
- 【python数字信号处理】——Z变换
- [Work Summary] Python获取每月特定日期