zl程序教程

您现在的位置是:首页 >  后端

当前栏目

zeppelin--使用D-Tale,针对pandas结构化数据进行可视化探索

pandas数据 -- 进行 探索 可视化 针对 结构化
2023-09-11 14:16:24 时间

什么是D-Tale

D-Tale是Flask后端和React前端的结合,为Pandas数据结构的提供可视化分析。
它与ipython notebook和python/ipython terminals无缝集成。
目前这个工具支持Pandas的这些数据结构DataFrame、Series、MultiIndex、DatetimeIndex和RangeIndex。

D-Tale是SAS到Python转换的产品。最初是SAS insight函数之上的perl脚本包装器,现在是Pandas数据结构之上的轻量级web客户端。

pypi地址

如何使用

安装

pip install -U dtale

使用

%python
import dtale
import pandas as pd

import pandas as pd
df = pd.read_csv("/data/flink/bank.csv", sep=";")

dtale.show(
  df,
  vertical_headers=False,
)

在这里插入图片描述

常用功能

列菜单提供的功能

  • 冻结列: Lock option将列固定在屏幕的左侧,允许您自由滚动/导航到其他列
  • 隐藏和删除:
    • hide选项从dataframe视图中删除列。它不会从实际dataframe中删除。可以简单地从右上角的隐藏列表中取消隐藏列
    • delete选项将从dataframe中永久删除该列。它类似于pandas的drop功能。在后端,它迭代列列表以选择要从dataframe中删除的列。
  • 替换和类型转换
    • 替换选项用于用常量或nan值替换列的某些值。可以就地进行替换,也可以创建单独的列。替换类型也可以定义为替换: 特定值、空格或特定字符串替换
    • Type conversion 针对字段的类型进行转换
  • 描述性统计Describe: 提供列或数据集的统计摘要,这个针对数据探查比较重要,
  • 筛选过滤Filters 增加针对列 或 数据集的过滤功能
  • 方差报告Variance Report :表示该特征是否具有低方差。它根据如下两个检查来决定,注意:只能用于非字符串类型。
    • 特性/样本大小中唯一值的计数< 10%
    • 最常用值的计数/第二常用值的计数> 20
  • 文本清洗: 仅对字符串类型的值可用。
    • 文本清理是数据科学项目的主要部分。如果清洗方式正确,可以提高模型性能
    • 提供可应用于文本的所有可能的文本清理方法(详见下图)
      在这里插入图片描述

主菜单提供的功能

Main Menu Options:主菜单与列菜单提供的选项几乎相同,但在主菜单中,它们是通用的,您可以在多个列的一个位置上执行操作,而可以手动从显示中选择它们。

以下是主菜单独有的一些选项,它们的工作方式不同。

  • Build Column: 允许你在现有的列之外创建新的功能/列。可以通过对列执行算术操作或使用两个列执行操作来创建这些新特性
  • 汇总数据Summarize Data: 像在pandas中一样,可以通过分组或数据透视表 概括数据【summarise the data】。
  • 缺失率分析Missing Analysis: 在任何类型的数据集中,缺失数据都是一个常见的问题.
    • D-Tale使用missingno python包来可视化数据集中出现的缺失值。
    • D-Tale还提供矩阵、条形图、热图和树状图。
  • Charts: 绘图是任何数据科学探索性分析阶段的重要步骤
    • D-Tale uses plotly to create interactive plots
    • offers Line, Bar, Scatter, Pie, word cloud, Heatmap, 3D scatter, Surface, Maps, Candlestick, Treemap, and funnel charts
    • 不同类型的数据支持不同类型的图表
  • Highlighters: 突出【高亮】显示数据集的某些部分
    • 可以突出显示缺失值、数据类型、离群值和范围。
  • Code Export and Data Export
    • 你在D-Tale中对你的dataframe所做的所有操作都自动转换为它们的python/pandas/plotly等效代码。
    • 可以使用导出选项在更改为CSV、TSV、Parquet后直接导出最终的数据集。

结论

使用Pandas 和 D-Tale,能快速的针对数据进行探查分析

附录

exploring-pandas-dataframe-with-d-tale