zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

(《机器学习》完整版系列)第10章 降维与度量学习——10.1 k近邻算法(你是住在穷人区还是富人区?)

机器算法学习 系列 10 还是 完整版 度量
2023-09-11 14:14:53 时间

样本由属性刻划,围绕着属性有两个需要关注的:一是属性的维度,二是基于属性的距离,本章讨论这两个方面。
多年不见的老同学问你:你是住在穷人区还是富人区?他再根据你住的区域判断你是穷人还是富人,当然,他的判断有可能失误。

k k k近邻

【西瓜书9.5节】讨论过样本的 ϵ \epsilon ϵ- 邻域,“域”是指“地盘”,即画个足够小的范围,看看该范围中的密度(样本个数),若是密度达到一个阈值,则该点形成一个“聚”,由此导出聚类问题的解。 现在,不限定范围,而是给出“邻”的个数 k k k限制,假定样本是“人”, k k k个最亲近的人中,若“穷人”占多,则预测该样本是“穷人”,这显然是解决分类问题(有监督学习)的方法,称为 k k k近邻算法。

k k k近邻中的“近”涉及某种距离度量,为进一步理解,我们举欧氏距离的例子:假定要预测样本的人种:找出样本的 k k k个“邻居”,若这 k k k个“邻居”中“黑人”占多,则预测该样本是“黑人”。 注意,这里没有限定“邻”的范围,而是通过超参数 k k k间接地定义“邻”的范围,如【西瓜书图10.1】所示。 显然,人口密的地方样本的“邻”的范围小,人烟稀少的地方“邻”的范围大。

考虑“单位空间”,显然,空间维数越高,则单位空间内的容积越大,如,一平米与一立方米。 同样个数的点,撒入两个不同维数的单位空间中,则维数越高,样本越稀疏,导致附近无或少“邻居”,需要在更大的范围中找“邻居”,这就是“维数灾难”,降维是解决的途径。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:9.5 密度聚类与层次聚类(DBSCAN算法、AGNES算法)
下一篇:10.2 低维嵌入(立交桥就是嵌入三维空间中的二维)