深度学习之网络爬虫总结
深度学习的前提就是海量的数据,在现实生产过程中采集大量的数据是很累时费钱的,这时候就到了爬虫大显身手的时候了。常见的网上爬虫资源方法都很单一,今天我就尝试一下就自己接触的几种方法进行一个简单的总结:
(一)爬虫
一般根据爬虫内容的大小可以采取以下三种方式:
(1)小规模利用资源库
通常利用requests、bs4、re等库来对网页内容解析,然后再爬取想要的资源文件等。
import requests keyword='python' ##搜素Python相关内容 try: r=requests.get("https://www.baidu.com",params=keyword) print(r.status_code) r.raise_for_status print(len(r.text)) except: print("爬取失败!")
其中对于bs4的beautifulsoup类使用理解如下:
(2)利用爬虫框架
pyspider https://www.jianshu.com/p/39c7371dd6c2
scrapy :https://www.jianshu.com/p/6bc5a4641629
利用scrapy框架来实现网络爬取,其框架如下(5+2):
一般需要进行如下操作:
相对于第一种方式而言,
(3)大型的网络爬虫
这种面向互联网所有资源的爬虫,就像Google或者百度一样做搜索引擎,这样的化一般需要进行专门的定制开发,这里就不做赘述。。。
(二)反爬虫
矛与盾自古就是相生相克的,想要合理利用爬虫就需要同时对反爬虫机制进行一定的了解,知己知彼百战百胜嘛!下面看一些例子:
(1)没有限制的
(2)有限制
总之,爬虫涉及到web资源的索取以及一些法律问题(敏感信息),我们需要谨慎对待
理性爬虫,和谐生活!!!
相关文章
- Python使用tkinter组件Label显示简单数学公式
- 内网渗透之DCOM横向移动
- 以目标为导向的语义交流的共同语言——一个课程学习框架
- python爬虫前奏【成信笔记】
- HTML 5 File API:文件拖放上传功能
- 教你快速创建 Python 虚拟环境
- pyenv 实现Python多版本自由切换
- 用 Python 对 Excel文件进行批量操作
- Python - 接入钉钉机器人
- Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
- crontab - 解决 mac 下通过 crontab 设置了 Python 脚本的定时任务却无法运行
- [源码解析] PyTorch分布式(5) ------ DistributedDataParallel 总述&如何使用
- Python科普系列——类与方法(上篇)
- SAP对STO的交货单执行PGI,报错 -Fld selectn for mvmt type 643 acct 400020 differs
- Spring Boot 实现通用 Auth 认证的 4 种方式
- 盘点4种使用Python批量合并同一文件夹内所有子文件夹下的Excel文件内所有Sheet数据
- OushuDB 学习经验分享(三):技术特点
- Java和Python思维方式的不同之处
- Python中日志记录新技能
- 奥比中光Gemini OpenCV—Python使用