在 Python 中构建高度可扩展的数据流管道
2023-09-11 14:18:47 时间
Python 已将自己塑造成一种用于数据密集型工作的语言。我们到处都能看到它,只是因为它在 Python 中的原型制作速度非常快,而且人们因其简单的语法而喜欢它,这股浪潮也登陆了数据行业。数据工程师和数据科学家也开始在他们的数据密集型工作中使用它。在这个故事中,我们将使用 Python 构建一个非常简单且高度可扩展的数据流管道。
数据流是传输连续数据流的过程。
现在我们知道,在管道的一侧,我们将有一些或至少一个数据生产者持续生成数据,而在另一侧,我们将有一些或至少一个数据消费者持续使用这些数据。
建筑学
首先是设计一个可扩展且灵活的架构来证明该声明的合理性。我们将使用Redis作为数据管道,为了这个故事,我们将使用一个非常简单的数据抓取微服务,使用Scrapy作为数据生产者和一个单独的微服务作为数据消费者。
构建数据生产者
我们首先需要构建一个带有激活虚拟环境的简单 Python 项目。对于这个具体的故事,我们将使用 Scrapy 的官方教程。我们需要运行下面给出的命令来创建一个空的 Scrapy 项目。
scrapy startproject producer
这将创建一个目录结构,如下图所示
相关文章
- 「Python 编程」编码实现网络请求库中的 URL 解析器
- 第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
- Python程序 #!/usr/bin/python 的解释
- 优秀Python学习资源收集汇总--强烈推荐(转)
- Python 字符串_python 字符串截取_python 字符串替换_python 字符串连接
- Linux下部署python selenium UI自动化测试
- python网络框架Twisted
- python: easyocr的安装和使用(easyocr 1.6.2 / Python 3.7.15 )
- Python 字符串_python 字符串截取_python 字符串替换_python 字符串连接
- Python Django 设置和获取Cookie代码示例
- Python语言学习:利用python获取当前/上级/上上级目录路径(获取路径下的最后叶目录的文件名、合并两个不同路径下图片文件名等目录/路径案例、正确加载图片路径)之详细攻略
- Python之tkinter:动态演示调用python库的tkinter带你进入GUI世界(Entry/Entry的Command)
- 成功解决 tensorflow…datasetsmnist.py:290: DataSet.__init__ (from tensorflow.contrib.learn.python.lea
- Python可视化数据分析01、python环境搭建
- 已解决2. Set PROTOCOL_BUPFERS_PYTHON_iMPLEMENTATION=python (but this will use pure-Python parsing and w
- 已解决(Python安装报错)Visit python.org to download an earlier version of Python.
- 〖Python 数据库开发实战 - MongoDB篇①〗- MongoDB数据库简介
- python界面开发案例:制作一个计算器软件
- Python实现九九乘法表的几种方式,入门必备案例~超级简单~
- python中的fstring的 !r,!a,!s
- Python内置包Tkinter的重要控件(下)
- Python编程:Flask扩展Flask-WTF和Flask-SQLAlchemy应用实例
- 使用pybind11开发python扩展库(4)
- python基础===如何优雅的写代码(转自网络)
- 【Python】Visual Studio Code 安装&&使用 hello python~~~~
- 【Python基础】python爬虫之异步网络爬虫ǃ
- Python:随机生成测试数据的模块——faker的基本使用
- 【Python】3.python实现图片上传到阿里云OSS
- 【Python】1.python 删除文件夹和文件