您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第10章降维与度量学习——10.1 k近邻算法（你是住在穷人区还是富人区？）

机器算法学习系列 10 还是完整版度量

2023-09-11 14:14:53 时间

样本由属性刻划，围绕着属性有两个需要关注的：一是属性的维度，二是基于属性的距离，本章讨论这两个方面。
多年不见的老同学问你：你是住在穷人区还是富人区？他再根据你住的区域判断你是穷人还是富人，当然，他的判断有可能失误。

$k$ 近邻

【西瓜书9.5节】讨论过样本的 $\epsilon$ - 邻域，“域”是指“地盘”，即画个足够小的范围，看看该范围中的密度（样本个数），若是密度达到一个阈值，则该点形成一个“聚”，由此导出聚类问题的解。现在，不限定范围，而是给出“邻”的个数 $k$ 限制，假定样本是“人”， $k$ 个最亲近的人中，若“穷人”占多，则预测该样本是“穷人”，这显然是解决分类问题（有监督学习）的方法，称为 $k$ 近邻算法。

$k$ 近邻中的“近”涉及某种距离度量，为进一步理解，我们举欧氏距离的例子：假定要预测样本的人种：找出样本的 $k$ 个“邻居”，若这 $k$ 个“邻居”中“黑人”占多，则预测该样本是“黑人”。注意，这里没有限定“邻”的范围，而是通过超参数 $k$ 间接地定义“邻”的范围，如【西瓜书图10.1】所示。显然，人口密的地方样本的“邻”的范围小，人烟稀少的地方“邻”的范围大。

考虑“单位空间”，显然，空间维数越高，则单位空间内的容积越大，如，一平米与一立方米。同样个数的点，撒入两个不同维数的单位空间中，则维数越高，样本越稀疏，导致附近无或少“邻居”，需要在更大的范围中找“邻居”，这就是“维数灾难”，降维是解决的途径。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：9.5 密度聚类与层次聚类（DBSCAN算法、AGNES算法）
下一篇：10.2 低维嵌入（立交桥就是嵌入三维空间中的二维）

猜你喜欢

UEditor自定义工具栏-常规按钮
Windows安装redis
IC向管理者角色转换
小师妹学JavaIO之:文件写入那些事
Kafka配置项unclean.leader.election.enable造成consumer出现offset重置现象
测试工作中比较好用的几款对比工具
nginx+keepalived高可用实战
Content type ‘multipart/form-data；boundary=--------------------------9107
ZABBIX监控原理
MIT的新成果震惊了科学界，我们真的可以用意念控制机器人了
《Effective Java》第16条：要在仅有类中使用访问方法而非公有域
SwiftUI 绘图类精品项目大全之条形码所见即所得全功能项目支持打印（教程含源码WYSIWYG）
一次性将word中的数字和字母全部改为“Times New Roman”字体
Node魔法堂：NPM入了个门

相关主题

算法-贪心算法
机器学习之梯度下降
机器学习算法比较
机器算法

zl程序教程

当前栏目

（《机器学习》完整版系列）第10章降维与度量学习——10.1 k近邻算法（你是住在穷人区还是富人区？）

$k$ 近邻

相关文章

当前栏目

（《机器学习》完整版系列）第10章 降维与度量学习——10.1 k近邻算法（你是住在穷人区还是富人区？）

k k k近邻

相关文章

（《机器学习》完整版系列）第10章降维与度量学习——10.1 k近邻算法（你是住在穷人区还是富人区？）

$k$ 近邻