您现在的位置是：首页 > IT要闻

当前栏目

（数据科学学习手札95）elyra——jupyter lab平台最强插件集

学习变量数据插件工作流

2023-03-20 14:46:42 时间

本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes

1 简介

　　jupyter lab是我最喜欢的编辑器，在过往的文章中也给大家介绍过很多相关资源和实用插件，但本文要给大家介绍的jupyter lab插件elyra，绝对是我使用过的最强大的jupyter lab插件没有之一，因为它的核心功能就是帮助我们解决数据分析工作中非常重要的问题——搭建工作流。

图1

2 利用elyra搭建工作流

　　在安装elyra插件集之前，请确保你的jupyter lab版本在2.0及以上，并且已经安装好了nodejs也就是所有jupyter lab拓展插件都需要的依赖。

　　不像常规的jupyter lab插件的安装方法，我们执行下列命令即可安装elyra下集成的多个插件：

pip install --upgrade elyra && jupyter lab build

　　安装完之后，你的jupyter lab操作界面外观会发生一些变化，我们先记住在安装elyra之前我们的jupyter lab界面长啥样（我使用的主题感兴趣的朋友可以通过jupyter labextension install jupyterlab-tailwind-theme来安装）：

图2

　　而在安装完成重启jupyter lab之后，除了左上角的jupyterlogo变化了之外，还新增了图中我用红框框选出来的地方：

图3

　　接下来我们就来介绍如何利用elyra交互式地搭建工作流。

　　elyra赋予了我们通过交互的方式将若干个ipynb文件组织成工作流的能力，为了方便演示，这里我们创建几个带有简单流程代码的ipynb文件：

图4 step1.ipynb

图5 step2.ipynb

图6 step2-1.ipynb

图7 step2-2.ipynb

　　接着我们在Launcher页面点击Pipeline Editor打开用来交互式编辑notebook流水线的界面：

图8

图9

　　直接将侧边栏中对应的step1.ipynb文件拖拽进来：

图10

　　点击流水线界面中ipynb文件对应节点右侧的三个圆点，可以打开更多功能选项：

图11

　　因为我们是本地环境，所以这里只需要在properties下必填参数Runtime Image中随便选一个就行：

图12

　　保存之后，就完成了本地环境下单个节点的必要参数设置，同样的将其他ipynb文件拖拽进来，各自配置好必要参数再如图13所示将各节点联结起来：

图13

　　这样我们的流水线就搭建好了，是不是非常滴好玩~，接着点击左上角的运行按钮，输入流水线名称后即可开始运行我们的工作流：

图14

　　工作流执行成功之后也会有提示：

图15

　　如果工作流执行到某个节点发生程序错误，也会有非常人性化的提示：

图16

　　对应出错的ipynb错误代码块上方，elyra也会帮我们创建记录错误信息的markdown单元格：

图17

　　最好用的是，配合魔术命令%store，我们就可以跨notebook传递全局变量，而不需要再往外写出先前节点的结果文件：

　　利用%store 变量名将某个变量转化为跨kernel的全局变量：

图18

　　利用%store -r 变量名将跨kernel全局变量中的指定变量加载到当前kernel中：

图19

　　而除了搭建工作流这个核心功能外，elyra还有很多其他的实用功能，感兴趣的朋友可以前往官方文档（https://elyra.readthedocs.io/en/latest/）自行阅读学习。

图20

　　以上就是本文的全部内容，欢迎在评论区与我进行讨论~

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

（数据科学学习手札95）elyra——jupyter lab平台最强插件集

1 简介

2 利用elyra搭建工作流

相关文章