分类问题 boosting思想详解大数据
数据 问题 详解 分类 思想 boosting
2023-06-13 09:20:26 时间
Boosting思想:
Boosting方法不是一种特定的学习方法,而是一种在已有的学习方法基础上进行“投票”的方式。具体说来,它是对已有的若干分类器(可谓同类或者异类,且分类效果不死很好,比较弱)进行加权求和得到最终的分类器。虽然从理论上来说, 任何机器学习方法都可以作为Boosting 方法的弱学习器,在实际中,Boosting的弱规则常采用基于规则的方法。
Boosting通过关注弱规则的错误而逐渐组合成强规则,所以它是一种错误驱动的方法。这其中,AdaBoost是Boosting方法中最常用的一种。如下是最初的AdaBoost算法的思想:
具体说来:
给定带有标签的N个训练样本,初始化时每个样本的权重设为1/N,对一下操作循环T次
1、使用给定算法训练分类器ht,注意使用到了样本的权重,即不同的权重的样本,分类器对待态度不同
2、计算该分类器ht的错误率error
3、根据上面计算的错误率error根据给定公式为该分类器设置权重at
4、根据该分类器的权重更新全部训练样本的权重 (注意给样本权重归一化,即所有样本的权重加起来和为1)
循环结束后,根据公式得到最终的分类器
注意此处的ht的分类效果不可太好,如果太好,最后boosting后的效果反而不如ht本身的分类结果。
选择标准:就SVM分类器而言:其参数(方差)不可取太小,分类正确率在50%左右比较合适。
9516.html
分布式文件系统,分布式数据库区块链并行处理(MPP)数据库,数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集相关文章
- python从列表字典集合中筛选数据
- 解决若依平台窗口大小改变或者按下F12后,主子表数据丢失的问题
- 论如何解决学习通被拖库导致的数据泄漏问题
- soapUI模拟发送json数据时,遇到的中文编码问题详解程序员
- Hadoop部署启动异常问题排查详解大数据
- HDFS详解大数据
- hadoop is running beyond virtual memory limits问题解决详解大数据
- java.lang.Exception: libsvm classes not in CLASSPATH!问题解决方法详解大数据
- SSH重新登录的问题详解大数据
- Redis(二十一):Redis性能问题排查解决手册详解大数据
- poi解决java导出excel海量数据内存溢出问题详解编程语言
- 调用BAPI创建病患主数据时的问题汇总[BAPI_PATIENT_CREATE]详解编程语言
- 谷歌浏览器发布v79.0.3945.88正式版修复漏洞和安卓版的数据丢失问题
- 缓存解决Redis中Java数据的过期缓存问题(redisjava过期)
- 时间解决Java中Redis数据过期时间问题(redisjava过期)
- MySQL导出数据:解决不完整问题(mysql导出数据不完整)
- 掌握MSSQL数据库索引优化技巧,提升数据查询效率(mssql数据库索引)
- 如何解决PHP里大量数据循环时内存耗尽的问题
- Redis:快速解决大数据存储问题(redis写入)
- 数据调查Oracle数据丢失和修改的原因(oracle出现丢失修改)
- 容量极限突破如何应对过大数据存储问题(数据过大redis存不下)
- MySQL上行锁详解如何避免数据并发操作的问题(mysql上行锁)
- 如何解决MySQL无法保存数据的问题(mysql不能报存)
- 浅析ajax请求json数据并用js解析(示例分析)
- java中form以post、get方式提交数据中文乱码问题总结