您现在的位置是：首页 > 其他

当前栏目

机器学习面试题——KNN（K Nearest Neighbors）K近邻分类算法

面试题机器算法学习分类 KNN 近邻

2023-09-11 14:15:38 时间

机器学习面试题——KNN（K Nearest Neighbors）K近邻分类算法

提示：
KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，
注意KNN算法是有监督学习中的分类算法，它看起来和另一个机器学习算法Kmeans有点像（Kmeans是无监督学习算法），但却是有本质区别的。
那么什么是KNN算法呢，接下来我们就来介绍介绍吧。

文章目录

机器学习面试题——KNN（K Nearest Neighbors）K近邻分类算法
@[TOC](文章目录)

KNN介绍一下
距离包括欧式距离和曼哈顿距离
KNN的K值怎么选

KNN优缺点
优点：
缺点：

KNN数据需要归一化吗？
KNN三要素说一下
欧式距离与曼哈顿距离区别
knn的k设置的过大会有什么问题
啥时候用啥ML算法？
总结

KNN介绍一下

人以类聚，物以群分——同流合污，近朱者赤近墨者黑！

KNN的全称是K Nearest Neighbors，意思是K个最近的邻居，
KNN的原理就是：
当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。
通过方差表示“距离”

在这里插入图片描述
图中绿色的点就是我们要预测的那个点，假设K=3。
那么KNN算法就会找到与它距离最近的三个点（这里用圆圈把它圈起来了），
看看哪种类别多一些，比如这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了。
但是呢，当K=5的时候，判定就变成不一样了。
这次变成红圆多一些，所以新来的绿点被归类成红圆。
从这个例子中，我们就能看得出K的取值是很重要的。
在这里插入图片描述

距离包括欧式距离和曼哈顿距离

KNN算法中使用更多的是欧式距离，二维空间两个点的欧式距离计算公式如下：
在这里插入图片描述
拓展到多维空间，则公式变成这样：

KNN的K值怎么选

答：交叉验证法
尝试：看哪个k更好，通过不断验证K不同的取值来确定。
通过交叉验证（将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6：4拆分出部分训练数据和验证数据），
从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。
通过交叉验证计算方差后你大致会得到下面这样的图：
在这里插入图片描述
选择一个较大的临界K点，当它继续增大或减小的时候，错误率都会上升，比如图中的K=10
又是手肘法？和k-means聚类类似

KNN优缺点

KNN是较为简单的机器学习方法了。最关键的就是理解“距离”的概念。
KNN的优缺点

优点：

（1）简单易用，相比其他算法，KNN算是比较简洁明了的算法。
（2）模型训练快：就没有参数，非参数训练，当然k也算是了。
（3）预测效果好。
（4）对异常值不敏感

缺点：

（1）对内存要求较高，因为该算法存储了所有训练数据
（2）预测阶段可能很慢
（3）对不相关的功能和数据规模敏感
（4）对数据纲量敏感，所以数据要先归一化

KNN数据需要归一化吗？

答：是的
KNN对数据纲量敏感，所以数据要先归一化。
因为KNN使用的方差来反映“距离”，纲量对方差计算影响较大。

KNN三要素说一下

（1）k值的选取
（2）距离度量的方式。一般为欧式距离
（3）分类决策规则。
分类一般为多数表决，就是哪类多选哪类。
回归为选择平均法，即k个样本输出的平均值作为预测输出。

欧式距离与曼哈顿距离区别

（1）欧式距离：平方差求和再开方
（2）曼哈顿距离：坐标差的绝对值求和
一般用欧式距离而非曼哈顿距离的原因：欧式距离可适用于不同空间，表示不同空间点之间的距离；欧氏距离表示空间中点的距离。
曼哈顿距离则只计算水平或垂直距离，有维度的限制！

knn的k设置的过大会有什么问题

如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，
其优点是可以减少学习的估计误差，
但缺点是学习的近似误差会增大。

我们考虑一种极端的情况，当k和整个样本数量一样的，KNN的分类结果总是取决于样本类别数量最多的那一类。这时模型的误差最大化。

啥时候用啥ML算法？

在这里插入图片描述

总结

提示：重要经验：

1）区分K-means：无监督聚类，KNN：（有监督分类）
2）KNN的本质，k值选取，距离计算，优缺点，要了解

猜你喜欢

grep -n 显示行号
（Java实现）营救
(02)Cartographer源码无死角解析-(12) Node类初探→构造函数与开始轨迹
轻量级分布式文件系统FastDFS使用安装说明手册（新手入门级）
【9201】&&【a201】明明的随机数
CloudFoundry上运行的应用远程调试的一些安全考虑
C++ 协程介绍[译]
java实现购物券消费方案
NoSQL数据库的分布式算法&&memcache集群的实现
MMD最大均值差异学习
7.python实现高效端口扫描器之nmap模块
第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-983 最大获利
Nginx 的异步非阻塞体现在哪里？从理论分析到源码验证

相关主题

Java常见面试题
iOS 面试题
Java面试题续

zl程序教程

当前栏目

机器学习面试题——KNN（K Nearest Neighbors）K近邻分类算法

机器学习面试题——KNN（K Nearest Neighbors）K近邻分类算法

文章目录

KNN介绍一下

距离包括欧式距离和曼哈顿距离

KNN的K值怎么选

KNN优缺点

优点：

缺点：

KNN数据需要归一化吗？

KNN三要素说一下

欧式距离与曼哈顿距离区别

knn的k设置的过大会有什么问题

啥时候用啥ML算法？

总结

相关文章