zl程序教程

您现在的位置是:首页 >  后端

当前栏目

Python数据处理Tips正确的处理数据冲突和样本选取方法

Python方法数据 处理 正确 数据处理 冲突 样本
2023-09-11 14:18:26 时间

将日常工作中遇到的数数据冲突和样本源的方法进行总结,其中主要包括 实际业务数据冲突、样本选取问题、数据共线性 等思路。
在这里插入图片描述

业务数据冲突

多业务数据源冲突是指来自多个或具有相同业务逻辑但结果不同的系统,环境、平台和工具的数据。根据冲突的不同特征。

一般数据冲突类型:

  • 数据类型:同字段数据的格式不同。例如注册日期的字段包含字符串。
  • 数据结构冲突:同一数据主体的描述结构存在冲突。
  • 记录粒度不同:订单记录的粒度可以基于ID存储在一条数据中。
  • 数据范围定义