您现在的位置是:首页 > Python 当前栏目 python爬虫——入门(1) Python 存储 线程 数据 协议 入门 2023-03-02 11:00:35 时间 ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70] -------------------- QQ 1285575001 Wechat M010527 技术交流 QQ群599020441 纪年科技aming -------------------- ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 1]![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 2]![在这里插入图片描述][20191120211922339.png] * pymysql orm 保存数据 * html解析方法 分析 * 抓取 静态网页 论坛 * 动态网站 电商类 * 模拟登陆cookie 社区类 * 验证突破 * 反爬虫突破 * 多线程 线程池 * scrapy * 通用分布式爬虫框架模块 * 更新迭代采集 * 通用解析方法 * 分布存储 -------------------- #### \#认识爬虫\# #### * 搜索引擎 之前 输入域名访问 * 搜索引擎 主动查询代替 被动浏览 * 怎么获取所有数据(我们关心的内容) * 产生爬虫 爬取 索引![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 3] -------------------- * 采集网络数据 * 自动化测试 (接口 请求 验证数据)selenium * 脱离手动 (抢票 , 微信助手,爱聊,注册账号,登陆,获取资料) * 灰产业 (撸羊毛,网络水军,攻击) * 数据产品 数据聚合(新闻 ,头条) * 搜索产品 * 数据分析、人工智能元数据 * 特定领域 数据服务(二手车估价,天气预报,团购,去哪儿) -------------------- #### \#知识储备\# #### * 计算机网络 (http/https协议,tcp/ip协议,socket编程) * 前端基础 * 正则表达式(数据处理)xpath css选择器 * 数据分布式存储 ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 4] * 并发处理,多线程池,协程 * 图像识别(处理反扒,验证码) * 机器学习算法(验证码,数据解析) -------------------- ##### \#学习问题\# ##### * 大型爬虫 采集更新策略 * 解决 数据反爬虫 机制(多变) * 数据解析 * 数据存储 * 模拟登陆(验证码识别) * 爬虫监控 部署 * 数据去重 -------------------- #### \#爬虫正能量\# #### * 注意节制 限速/代理/线程 控制 减少频率 * 数据安全 robots.txt协议 * 法律问题 (2019.11.30 并不成熟) * 可显数据 * 反扒策略 -------------------- #### \#robots协议\# #### ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 5]![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 6]![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 7] * user-agent : 爬虫名称 ![在这里插入图片描述][2019113019153850.png]![在这里插入图片描述][20191130191546439.png]![在这里插入图片描述][20191130191607886.png]![在这里插入图片描述][20191130191618202.png]![在这里插入图片描述][20191130191638817.png]![在这里插入图片描述][20191130191655902.png]![在这里插入图片描述][20191130191807221.png]![在这里插入图片描述][20191130191814662.png] 一般放在末尾 * allow:爬虫可以访问得url (根路径下) /$为首页 * disallow:不可以爬取 一般加入 / [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70]: /images/20210725/b98d876d3ac84a138ca60f61e0f4f532.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 1]: https://img-blog.csdnimg.cn/20191120211726888.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw,size_16,color_FFFFFF,t_70 [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 2]: https://img-blog.csdnimg.cn/20191120211913275.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw,size_16,color_FFFFFF,t_70 [20191120211922339.png]: /images/20210725/4053f403ef6a4919ae93b0d2ab56ce15.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 3]: /images/20210725/be3a7ff9a9b9451687b486077dcec38c.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 4]: /images/20210725/e3f279e3e4f442e397800a7f74fc03cf.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 5]: https://img-blog.csdnimg.cn/20191130190544513.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw,size_16,color_FFFFFF,t_70 [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 6]: https://img-blog.csdnimg.cn/20191130190604318.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw,size_16,color_FFFFFF,t_70 [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzNjA4MDAw_size_16_color_FFFFFF_t_70 7]: /images/20210725/69762897b89748cdb6bf089911e69cb7.png [2019113019153850.png]: https://img-blog.csdnimg.cn/2019113019153850.png [20191130191546439.png]: https://img-blog.csdnimg.cn/20191130191546439.png [20191130191607886.png]: https://img-blog.csdnimg.cn/20191130191607886.png [20191130191618202.png]: https://img-blog.csdnimg.cn/20191130191618202.png [20191130191638817.png]: https://img-blog.csdnimg.cn/20191130191638817.png [20191130191655902.png]: https://img-blog.csdnimg.cn/20191130191655902.png [20191130191807221.png]: https://img-blog.csdnimg.cn/20191130191807221.png [20191130191814662.png]: /images/20210725/354fe5699361414ba82c0a84b1d7a2c0.png 本文地址: python爬虫——入门(1) 相关文章 Python学习(七) Python KeyError异常 python Scrapy安装 Python Day12 [python code]AT Python环境安装 python常见问题 Python时间函数 python 面试题 python面试题 python面试题 python面试题 python 面试题 python面试题 python美化XML python vs jython Python解释器 python基础知识 python 匿名函数 Python之序列