您现在的位置是：首页 > 后端

当前栏目

异常检测：检测方法分类【基于统计学的方法：max/min/mean、3∂原则、箱型图】【基于聚类的方法：KNN、BIRCH、DBSCAN】【专用的异常点检测算法：PyOD库】

方法算法异常基于检测分类原则 max

2023-09-27 14:20:37 时间

一、什么是异常值？

在机器学习中，异常检测和处理是一个比较小的分支，或者说，是机器学习的一个副产物，因为在一般的预测问题中，模型通常是对整体样本数据结构的一种表达方式，这种表达方式通常抓住的是整体样本一般性的性质，而那些在这些性质上表现完全与整体样本不一致的点，我们就称其为异常点，通常异常点在预测问题中是不受开发者欢迎的，因为预测问题通产关注的是整体样本的性质，而异常点的生成机制与整体样本完全不一致，如果算法对异常点敏感，那么生成的模型并不能对整体样本有一个较好的表达，从而预测也会不准确。

从另一方面来说，异常点在某些场景下反而令分析者感到极大兴趣，如疾病预测，通常健康人的身体指标在某些维度上是相似，如果一个人的身体指标出现了异常，那么他的身体情况在某些方面肯定发生了改变，当然这种改变并不一定是由疾病引起（通常被称为噪音点），但异常的发生和检测是疾病预测一个重要起始点。相似的场景也可以应用到信用欺诈，网络攻击等等。

二、异常值的检测方法

一般异常值的检测方法有基于统计的方法，基于聚类的方法，以及一些专门检测异常值的方法等，下面对这些方法进行相关的介绍。

1、简单统计

如果使用pandas，我们可以直接使用describe()来观察数据的统计性描述（只是粗略的观察一些统计量），不过统计数据为连续型的，如下：

1.1 df.describe()

猜你喜欢

人脸识别-损失函数：概述【Softmax loss--＞Centre loss--＞L-Softmax Loss--＞SphereFace--＞CosFace--＞ArcFace】
安卓O内核的加固
在android系统上写C语言程序--开机启动该程序不进入安卓系统
利用浮力测密度
微信小程序开发：小程序的本地数据缓存
甘超波：NLP新旧ABC觉察法
WD西部数据硬盘数据丢失了免费恢复方法
mybatis中的缓存问题
Twaver-HTML5基础学习(6)告警元素(Alarm)闪烁效果
排序算法c语言描述---冒泡排序
strtok和strtok_r
mySQL 教程第7章存储过程和函数
Postman 使用教程 - API 接口自动化测试初探
fori,foreach和stream().forEach三种集合遍历方式的区别和使用场景
可视化数据看板的沟通技巧
对象的组合
解决浏览器图片缓存问题(图片不能及时变过来)

相关主题

算法-贪心算法
算法 - KMP算法