zeppelin--使用D-Tale,针对pandas结构化数据进行可视化探索
2023-09-11 14:16:24 时间
什么是D-Tale
D-Tale是Flask后端和React前端的结合,为Pandas数据结构的提供可视化分析。
它与ipython notebook和python/ipython terminals无缝集成。
目前这个工具支持Pandas的这些数据结构DataFrame、Series、MultiIndex、DatetimeIndex和RangeIndex。
D-Tale是SAS到Python转换的产品。最初是SAS insight函数之上的perl脚本包装器,现在是Pandas数据结构之上的轻量级web客户端。
如何使用
安装
pip install -U dtale
使用
%python
import dtale
import pandas as pd
import pandas as pd
df = pd.read_csv("/data/flink/bank.csv", sep=";")
dtale.show(
df,
vertical_headers=False,
)
常用功能
列菜单提供的功能
- 冻结列: Lock option将列固定在屏幕的左侧,允许您自由滚动/导航到其他列
- 隐藏和删除:
- hide选项从dataframe视图中删除列。它不会从实际dataframe中删除。可以简单地从右上角的隐藏列表中取消隐藏列
- delete选项将从dataframe中永久删除该列。它类似于pandas的drop功能。在后端,它迭代列列表以选择要从dataframe中删除的列。
- 替换和类型转换
- 替换选项用于用常量或nan值替换列的某些值。可以就地进行替换,也可以创建单独的列。替换类型也可以定义为替换: 特定值、空格或特定字符串替换
- Type conversion 针对字段的类型进行转换
- 描述性统计Describe: 提供列或数据集的统计摘要,这个针对数据探查比较重要,
- 筛选过滤Filters 增加针对列 或 数据集的过滤功能
- 方差报告Variance Report :表示该特征是否具有低方差。它根据如下两个检查来决定,注意:只能用于非字符串类型。
- 特性/样本大小中唯一值的计数< 10%
- 最常用值的计数/第二常用值的计数> 20
- 文本清洗: 仅对字符串类型的值可用。
- 文本清理是数据科学项目的主要部分。如果清洗方式正确,可以提高模型性能
- 提供可应用于文本的所有可能的文本清理方法(详见下图)
主菜单提供的功能
Main Menu Options:主菜单与列菜单提供的选项几乎相同,但在主菜单中,它们是通用的,您可以在多个列的一个位置上执行操作,而可以手动从显示中选择它们。
以下是主菜单独有的一些选项,它们的工作方式不同。
- Build Column: 允许你在现有的列之外创建新的功能/列。可以通过对列执行算术操作或使用两个列执行操作来创建这些新特性
- 汇总数据Summarize Data: 像在pandas中一样,可以通过分组或数据透视表 概括数据【summarise the data】。
- 缺失率分析Missing Analysis: 在任何类型的数据集中,缺失数据都是一个常见的问题.
- D-Tale使用missingno python包来可视化数据集中出现的缺失值。
- D-Tale还提供矩阵、条形图、热图和树状图。
- Charts: 绘图是任何数据科学探索性分析阶段的重要步骤
- D-Tale uses plotly to create interactive plots
- offers Line, Bar, Scatter, Pie, word cloud, Heatmap, 3D scatter, Surface, Maps, Candlestick, Treemap, and funnel charts
- 不同类型的数据支持不同类型的图表
- Highlighters: 突出【高亮】显示数据集的某些部分
- 可以突出显示缺失值、数据类型、离群值和范围。
- Code Export and Data Export
- 你在D-Tale中对你的dataframe所做的所有操作都自动转换为它们的python/pandas/plotly等效代码。
- 可以使用导出选项在更改为CSV、TSV、Parquet后直接导出最终的数据集。
结论
使用Pandas 和 D-Tale,能快速的针对数据进行探查分析
附录
相关文章
- Pandas向本地Excel已存在的工作表追加写入DataFrame
- Pandas读取Excel日期数据的异常处理
- Pandas高级教程之:window操作
- Pandas之:Pandas简洁教程
- Python pandas中DataFrame逐行读取的方法(pandas.core.frame.DataFrame类型)
- pandas高级处理-数据离散化
- 基于SQLite,在Pandas DataFrames数据集中执行SQL操作
- Pandas缺失值处理、电影案例分析
- Pandas基本操作(索引、赋值、排序)
- Pandas的append方法
- pandas读取保存数据
- (数据科学学习手札86)全平台支持的pandas运算加速神器
- (数据科学学习手札69)详解pandas中的map、apply、applymap、groupby、agg
- Pandas大数据清洗实战之三:数据可视化
- 数据分析实际案例之:pandas在餐厅评分数据中的使用
- Pandas之read_excel()和to_excel()函数解析
- 基于pandas数据预处理基础操作
- Pandas(二) 数据读写处理及统计分析
- pandas_时间序列和常用操作
- Pandas 复习
- [Pandas] div()函数
- [Pandas技巧] 同名数值列赋值替换