C#黔驴技巧之去重(Distinct)
前言
关于C#中默认的Distinct方法在什么情况下才能去重,这个就不用我再多讲,针对集合对象去重默认实现将不再满足,于是乎我们需要自定义实现来解决这个问题,接下来我们详细讲解几种常见去重方案,孰好孰歹自行判之。
分组
首先给出我们需要用到的对象,如下:
public class Person { public string Name { get; set; } public int Age { get; set; } }
接下来我们添加100万条数据到集合中,如下:
var list = new List<Person>(); for (int i = 0; i < 1000000; i++) { list.Add(new Person() { Age = 18, Name = "jeffcky" }); }
接下来我们对年龄和名称进行分组,然后取第一条即可达到去重,如下:
list = list.GroupBy(d => new { d.Age, d.Name }) .Select(d => d.FirstOrDefault()) .ToList();
扩展方法(HashSet去重)
我们知道在C#中HashSet对于重复元素会进行过滤筛选,所以我们写下如下扩展方法,遍历集合元素,最后利用HashSet进行过滤达到去重目的,如下:
public static IEnumerable<TSource> Distinct<TSource, TKey>( this IEnumerable<TSource> source, Func<TSource, TKey> keySelector) { var hashSet = new HashSet<TKey>(); foreach (TSource element in source) { if (hashSet.Add(keySelector(element))) { yield return element; } } }
最后调用上述扩展方法即可去重,如下:
list = list.Distinct(d => new { d.Age, d.Name }).ToList();
扩展方法(IEqualityComparer去重)
在实际项目中有很多通过具体实现类实现该接口,通过重写Equals和HashCode比较属性值来达到去重目的,因为对于每一个类都得实现对应比较器,所以并不通用,反而利用上述方式才是最佳,其实我们大可借助该比较接口实现通用解决方案,对于每一个类都得实现一个比较器的原因在于,我们将属性比较放在类该接口内部,如果我们将属性比较放在外围呢,这个时候就达到了通用解决方案,那么我们怎么实现呢,通过委托来实现,实现该接口的本质无非就是比较HashCode,然后通过Equals比较其值,当比较HashCode时,我们强制其值为一个常量(比如0),当重写Equals方法我们调用委托即可,如下:
public static class Extensions { public static IEnumerable<T> Distinct<T>( this IEnumerable<T> source, Func<T, T, bool> comparer) where T : class => source.Distinct(new DynamicEqualityComparer<T>(comparer)); private sealed class DynamicEqualityComparer<T> : IEqualityComparer<T> where T : class { private readonly Func<T, T, bool> _func; public DynamicEqualityComparer(Func<T, T, bool> func) { _func = func; } public bool Equals(T x, T y) => _func(x, y); public int GetHashCode(T obj) => 0; } }
最终通过指定属性进行比较即可去重,如下:
list = list.Distinct((a, b) => a.Age == b.Age && a.Name == b.Name).ToList();
性能比较
以上3种常见方式我们已经介绍完毕了,当数据量比较小时,我们大可忽略对集合进行各种操作所带来的性能,但是一旦数据量很大时,我们可能需要考虑性能,能节省一点时间或许有必要,于是乎,在上述100万条数据前提下,我们来分析其耗时情况,如下:
var list = new List<Person>(); for (int i = 0; i < 1000000; i++) { list.Add(new Person() { Age = 18, Name = "jeffcky" }); } var time1 = Time(() => { list.GroupBy(d => new { d.Age, d.Name }) .Select(d => d.FirstOrDefault()) .ToList(); }); Console.WriteLine($"分组耗时:{time1}"); var time2 = Time(() => { list.Distinct(d => new { d.Age, d.Name }).ToList(); }); Console.WriteLine($"HashSet耗时:{time2}"); var time3 = Time(() => { list.Distinct((a, b) => a.Age == b.Age && a.Name == b.Name).ToList(); }); Console.WriteLine($"委托耗时:{time3}"); static long Time(Action action) { var stopwatch = new Stopwatch(); stopwatch.Start(); action(); stopwatch.Stop(); return stopwatch.ElapsedMilliseconds; }
总结
上述结果耗时大小比较理论应该不会出现逆转的情况,只是多少的问题,数据量较少时理论上差异也很明显,本文对于去重方式只是基于性能角度来分析,还是那句话大部分情况下,我们完全不需要考虑这些问题,不过,作为程序员的我们可能也想写出高性能、高质量的代码吧,有时候多考虑考虑也无妨,对自身有个好的代码质量要求也未尝不可,也还是那句话,孰好孰歹,自行判之。
相关文章
- C#-注册表操作
- 《C#本质论(第4版)》
- C# Assembly.Load vs Assembly.ReflectionOnlyLoad
- C#调用C++的dll
- c#中@标志的作用 C#通过序列化实现深表复制 细说并发编程-TPL 大数据量下DataTable To List效率对比 【转载】C#工具类:实现文件操作File的工具类 异步多线程 Async .net 多线程 Thread ThreadPool Task .Net 反射学习
- C#订阅与发布标准实现 visual studio code .net 开发 设计模式之☞策略模式 C#字符串转二进制、二进制转字符串 c# 接口的协变和逆变 c# 使用迭代器来创建可枚举类型 博客园首页新随笔联系订阅管理 随笔 - 117 文章 - 0 评论 - 57 c# 创建,加载,修改XML文档
- C#中缓存的使用 ajax请求基于restFul的WebApi(post、get、delete、put) 让 .NET 更方便的导入导出 Excel .net core api +swagger(一个简单的入门demo 使用codefirst+mysql) C# 位运算详解 c# 交错数组 c# 数组协变 C# 添加Excel表单控件(Form Controls) C#串口通信程序
- [翻译] C# 8.0 新特性 Redis基本使用及百亿数据量中的使用技巧分享(附视频地址及观看指南) 【由浅至深】redis 实现发布订阅的几种方式 .NET Core开发者的福音之玩转Redis的又一傻瓜式神器推荐
- C# DateTime的11种构造函数 [Abp 源码分析]十五、自动审计记录 .Net 登陆的时候添加验证码 使用Topshelf开发Windows服务、记录日志 日常杂记——C#验证码 c#_生成图片式验证码 C# 利用SharpZipLib生成压缩包 Sql2012如何将远程服务器数据库及表、表结构、表数据导入本地数据库
- c#打包文件解压缩 C#中使用委托、接口、匿名方法、泛型委托实现加减乘除算法 一个简单例子理解C#的协变和逆变 对于过长字符串的大小比对
- 史上最全的CSS hack方式一览 jQuery 图片轮播的代码分离 JQuery中的动画 C#中Trim()、TrimStart()、TrimEnd()的用法 marquee 标签的使用详情 js鼠标事件 js添加遮罩层 页面上通过地址栏传值时出现乱码的两种解决方法 ref和out的区别在c#中 总结
- c# 把一个匿名对象赋值给一个Object类型的变量后,怎么取这个变量? c# dynamic动态类型和匿名类 详解C# 匿名对象(匿名类型)、var、动态类型 dynamic 深入浅析C#中的var和dynamic
- C# 单例模式和窗体的单例打开方法
- C# 将文件夹中文件复制到另一个文件夹
- C# IL DASM 使用-破解c#软件方法
- C# 字符串拼接性能探索 c#中+、string.Concat、string.Format、StringBuilder.Append四种方式进行字符串拼接时的性能
- C#【必备技能篇】两个程序(进程间)通信,传递消息给其它窗口
- C#,入门教程(32)——程序运行时的调试技巧与逻辑错误探针技术与源代码
- c#获取控件指定坐标的像素值
- C# SerialPort 读写三菱FX系列PLC
- C#中的Socket编程-TCP客户端
- C# 对象和类型总结(六)
- 梦琪小生 C# 如何使用NPOI操作Excel以及读取合并单元格等
- 基于C#+MySQL实现(WinForm)停车场管理系统【100010066】
- C#获取文件名技巧
- C# 多线程六之Task(任务)二
- C#中的弱引用
- C#-String.Format数字格式化输出 {0:N2} {0:D2} {0:C2}
- C#打印日志的小技巧
- C# 使用FileSystemWatcher类来对一个日志文件的变化进行实时监测
- C#读取文件或者字符流的最后几行,类似linux的tail命令-OK
- 【C#】删除集合(Collection)里的元素(Item)