(《机器学习》完整版系列)第10章 降维与度量学习——10.1 k近邻算法(你是住在穷人区还是富人区?)
样本由属性刻划,围绕着属性有两个需要关注的:一是属性的维度,二是基于属性的距离,本章讨论这两个方面。
多年不见的老同学问你:你是住在穷人区还是富人区?他再根据你住的区域判断你是穷人还是富人,当然,他的判断有可能失误。
k k k近邻
【西瓜书9.5节】讨论过样本的 ϵ \epsilon ϵ- 邻域,“域”是指“地盘”,即画个足够小的范围,看看该范围中的密度(样本个数),若是密度达到一个阈值,则该点形成一个“聚”,由此导出聚类问题的解。 现在,不限定范围,而是给出“邻”的个数 k k k限制,假定样本是“人”, k k k个最亲近的人中,若“穷人”占多,则预测该样本是“穷人”,这显然是解决分类问题(有监督学习)的方法,称为 k k k近邻算法。
k k k近邻中的“近”涉及某种距离度量,为进一步理解,我们举欧氏距离的例子:假定要预测样本的人种:找出样本的 k k k个“邻居”,若这 k k k个“邻居”中“黑人”占多,则预测该样本是“黑人”。 注意,这里没有限定“邻”的范围,而是通过超参数 k k k间接地定义“邻”的范围,如【西瓜书图10.1】所示。 显然,人口密的地方样本的“邻”的范围小,人烟稀少的地方“邻”的范围大。
考虑“单位空间”,显然,空间维数越高,则单位空间内的容积越大,如,一平米与一立方米。 同样个数的点,撒入两个不同维数的单位空间中,则维数越高,样本越稀疏,导致附近无或少“邻居”,需要在更大的范围中找“邻居”,这就是“维数灾难”,降维是解决的途径。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:9.5 密度聚类与层次聚类(DBSCAN算法、AGNES算法)
下一篇:10.2 低维嵌入(立交桥就是嵌入三维空间中的二维)
相关文章
- 机器学习算法总结
- 机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归
- 神经网络与机器学习 笔记—LMS(最小均方算法)和学习率退火
- 机器深度学习算法的全浏览
- (《机器学习》完整版系列)第4章 线性模型——4.5 决策树算法中涉及的准则(叶子、划分、剪枝)
- (《机器学习》完整版系列)第13章 半监督学习——13.5 基于分歧的方法(多学习器间的差异、协同训练算法)
- (《机器学习》完整版系列)第10章 降维与度量学习——10.8 流形学习(等度量映射Isomap算法、局部线性嵌入LLE算法)
- [吴恩达机器学习笔记]15.1-3非监督学习异常检测算法/高斯回回归模型
- 美团面试——机器学习/数据挖掘算法工程师
- 阿里面试经验总结整理2——机器学习算法工程师
- 复盘:躺懂XGBoost/GBDT,学不会来打我!史上最强大的机器学习算法:BGDT……
- C#,机器学习的KNN(K Nearest Neighbour)算法与源代码
- 机器学习笔记之Sigmoid信念网络(三)KL散度角度观察醒眠算法
- 机器学习算法一览
- Andrew Ng机器学习公开课笔记 -- 朴素贝叶斯算法
- 机器学习-鸢尾花【K近邻算法(knn)带【交叉验证】适合于大样本的自动分类
- 机器学习九大算法---支持向量机
- 《Python机器学习——预测分析核心算法》——2.3 对“岩石vs.水雷”数据集属性的可视化展示
- Python机器学习零基础理解随机森林算法
- 配置hooks使svn提交后自动同步客户端代码(客户端与服务端在同一台机器上)
- Andrew Ng机器学习笔记+Weka相关算法实现(四)SVM和原始对偶问题
- 机器学习——人工神经网络之BP算法编程(python二分类数据集:马疝病数据集)
- 机器学习——人工神经网络之发展历史(神经元数学模型、感知器算法)