异常检测:检测方法分类【基于统计学的方法:max/min/mean、3∂原则、箱型图】【基于聚类的方法:KNN、BIRCH、DBSCAN】【专用的异常点检测算法:PyOD库】
2023-09-27 14:20:37 时间
一、什么是异常值?
在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点,通常异常点在预测问题中是不受开发者欢迎的,因为预测问题通产关注的是整体样本的性质,而异常点的生成机制与整体样本完全不一致,如果算法对异常点敏感,那么生成的模型并不能对整体样本有一个较好的表达,从而预测也会不准确。
从另一方面来说,异常点在某些场景下反而令分析者感到极大兴趣,如疾病预测,通常健康人的身体指标在某些维度上是相似,如果一个人的身体指标出现了异常,那么他的身体情况在某些方面肯定发生了改变,当然这种改变并不一定是由疾病引起(通常被称为噪音点),但异常的发生和检测是疾病预测一个重要起始点。相似的场景也可以应用到信用欺诈,网络攻击等等。
二、异常值的检测方法
一般异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等,下面对这些方法进行相关的介绍。
1、简单统计
如果使用pandas,我们可以直接使用describe()来观察数据的统计性描述(只是粗略的观察一些统计量),不过统计数据为连续型的,如下:
1.1 df.describe()
相关文章
- Spyder启动报错:ModuleNotFoundError: No module named ‘PyQt5.QtWebKitWidgets‘ 解决方法
- C++ 算法设计:鸡兔同笼问题的多种求解方法
- 机器学习-无监督学习-聚类:聚类方法(二)--- 基于密度的聚类算法【DBSCAN文本聚类算法,密度最大值文本聚类算法】
- NLP-基础任务-中文分词算法(2)-基于词典:基于N-gram语言模型的分词算法【基于词典的分词方法】【利用维特比算法求解最优路径】【比机械分词精度高】【OOV:基于现有词典,不能进行新词发现处理】
- 图算法(十二):标签传播算法(Label Propagation)【适用场景:用于资讯传播、广告推荐、社区发现等场景】【一种基于图的半监督学习方法】【用已标记节点的标签信息去预测未标记节点的标签信息】
- 基于采样的规划算法之动态规划方法
- C语言:反向输出栈方法实现
- 三种方法实现PCA算法(Python)
- C#.NET中对称和非对称加密、解密方法汇总--亲测可用
- 忽略大小写查看文件夹下重复的文件方法
- 自定义相关度分数算法 和 常见的相关度分数优化方法
- 11【C语言 & 趣味算法】个人所得税问题(结构体应用):结构体的声明、定义结构体类型的三种方法等
- 基于爬山算法改进的狮群算法优化Eggholder函数,测试函数的100种求解方法之18
- 基于狮群算法优化Eggholder函数,测试函数的100种求解方法之17
- 爬山算法改进粒子群求解测试测试函数shubert,测试函数的100种优化方法之14
- 基于爬山算法改进的樽海鞘算法SSA的Eggholeer函数优化,测试函数的100种优化方法之十三
- 深度学习之目标检测 第2章 目标检测算法基础介绍分类,目标检测方法基本流程
- HTML5 Audio/Video 标签,属性,方法,事件汇总
- Dynamics CRM 部署NLB后使用群集名称访问弹验证框验证不过的解决方法
- Linux访问window下的磁盘分区出现“Error mounting /dev/sda5 at/media”错误的解决方法
- 【Android UI】贝塞尔曲线 ⑦ ( 使用 德卡斯特里奥算法 公式计算的 方法绘制三阶贝塞尔曲线示例 )
- 1.端口被占用的最简解决方法
- 【Java 虚拟机原理】垃圾回收算法 ( 可达性分析算法 | GC Root 示例 | GC 回收前的两次标记 | finalize 方法示例 )
- ubuntu终止进程的方法
- 在VC中显示和处理图片的方法
- MFC 在对话框显示图片的多种方法
- [转载] shell中的各种括号的使用方法 | shell中各种括号的作用详解()、(())、[]、[[]]、{}
- Linux运行与控制后台进程的方法:nohup, setsid, &, disown, screen