您现在的位置是：首页 > 后端

当前栏目

最佳算法实现对泛型集合的数据去重

算法集合数据实现最佳

2023-09-14 09:06:28 时间

我负责运维的机票差旅分析报告项目，分析报告所需的数据（订单数据和基础维度数据）是从业务库抽取过来的。其中，有一个用户账户数据的同步程序，今天查看线上日志，发现同步程序出现了异常：

执行ExecuteSqlCommand方法捕获到System.Data.SqlClient.SqlException异常：违反了 PRIMARY KEY 约束“PK_BASEUSERACCOUNT”。不能在对象“dbo.BaseUserAccount”中插入重复键。重复键值为 (105487)。
违反了 PRIMARY KEY 约束“PK_BASEUSERACCOUNT”。不能在对象“dbo.BaseUserAccount”中插入重复键。重复键值为 (105488)。
语句已终止。
语句已终止。,SQL:
insert BaseUserAccount(AccountId,AccountName,LoginName,EntId,EntName,DeptId,DeptName,CreateTime)
values(74188,'薛彦','薛彦',49261,'太极计算机股份有限公司-智慧城市SBU部门一',49265,'销售部','2016/1/19 16:11:23');insert BaseUserAccount(AccountId,AccountName,LoginName,EntId,EntName,DeptId,DeptName,CreateTime)
values(74205,'徐琳','徐琳',49261,'太极计算机股份有限公司-智慧城市SBU部门一',49265,'销售部','2016/1/19 16:11

程序底层是用EF实现的，账户同步的逻辑是把数据从数据源读取过来放到一个List集合里，然后在本地系统持久化时，先清空表，再将List的数据转换后分批插入。通过分析，是从数据源拿的数据里有重复的数据，导致这边插入时出现主键冲突。

数据源系统的数据存储比较乱，我们改变不了。只能在我们这边做文章了。于是，决定的改进方案是：根据AccountId对集合数据去重。

我跟开发小组的一个同学说了一下，并叮嘱，从数据源获取到的记录有6万多条，注意优化一下去重算法。如果按常规的去重，估计要耗时5分钟，期望优化后能控制在半分钟内。

第二天，这个小同学交活了。 6万条记录的List集合，算法耗时平均不超过15毫秒。赞一个！

他的实现方案是，利用List的Distinct方法，然后重写了实体类的Equals方法。如下上代码：

namespace EntOlap.ETL.EF
{
    public partial class BaseUserAccount // 由于是EF，这里新建一个partial类
    {
        public override bool Equals(object obj)
        {
            BaseUserAccount bua = obj as BaseUserAccount;
            if (bua == null)
            {
                return false;
            }
            else
            {
                return this.AccountId == bua.AccountId;
            }
        }
        public override int GetHashCode()
        {
            return AccountId.GetHashCode();
        }
    }
}

猜你喜欢

深入学习二叉树(二) 线索二叉树
C# 系统应用之注册表使用详解
Kubernetes详解（三十八）——NFS对PVC和PV使用实战
JavaScript ES6 Fetch API时需要注意的一个Cookie问题
java有关的打包文件.jar、.war、.ear
数据库中varchar和Nvarchar区别与联系
Laravel 文件缓存也可以快得飞起，tmpfs 了解一下
php删除数组中相同的元素，只保留一个相同元素
基于注解SpringAOP，AfterReturning，Before，Around__springboot工程 @Around 简单的使用__SpringBoot:AOP 自定义注解实现日志管理
【华为云技术分享】《跟唐老师学习云网络》 - TUN/TAP网线
MySQL复习资料(六)——MySQL-多表联合查询
MINIO使用说明（附文件上传下载）
mysql中创建用户和赋权限
002-guava String 操作
二叉树遍历（前序、中序、后序、层次、深度优先、广度优先遍历）
第二人生的源码分析(四十九)接收服务器回应的纹理图片数据
windows下安装，配置gcc编译器
（十一）java循环结构

相关主题

逻辑回归算法
算法-贪心算法
数组的算法
算法 - KMP算法

zl程序教程

当前栏目

最佳算法实现对泛型集合的数据去重

相关文章