您现在的位置是：首页 > Python

当前栏目

用 Python 写爬虫时应该注意哪些坑？

Python HTML AJAX 数据

2023-04-18 16:46:27 时间

1.学会使用chrome浏览器查看通信以及查看元素格式

2.增加User-Agent, 这是最简单的反爬措施了

3.写爬虫最好使用Ipython，在交互式的环境下，可以时刻了解自己问题具体出在哪里

4.使用requests

5.用get或者post下好html之后，要确认你需要的东西html里面有，而不是之后用ajax或者javascript加载的。

6.解析的话，BeautifulSoup不错。对于少数非常特殊的，可以考虑用re。

7，需要大量采集数据的话，学会使用框架，比如scrapy。

进阶：

加入网站需要模拟登陆，里面使用了很多ajax或者javascript，或者反爬虫厉害，用requests的session，注意F12查看到底发送了什么数据。

实在不会，就使用模拟浏览器吧，推荐selenium，虽然速度慢点，内存多点，但是真的很省力，而且基本查不出来。

最后，爬虫速度不要太快，加上time.sleep(1),尽量少用多线程，别人建站也不容易，（尤其是小站）你不给别人带来很大的麻烦，别人也就睁一只眼闭一只眼了，否则封IP不是好玩的。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

用 Python 写爬虫时应该注意哪些坑？

相关文章