【机器学习】使用伪标签进行半监督学习
2023-09-11 14:21:08 时间
使用伪标签进行半监督学习,在机器学习竞赛当中是一个比较容易快速上分的关键点。下面给大家来介绍一下什么是基于伪标签的半监督学习。在传统的监督学习当中,我们的训练集具有标签,同时,测试集也具有标签。这样我们通过训练集训练到的模型就可以在测试集上验证模型的准确率。
然而使用伪标签的话,我们则可以使用训练集训练出一个最好的模型,然后再去除测试集的真实的标签,然后用这个已经train好的模型去predict测试集的标签。然后将这个predict后的标签假装认为是真实的标签,也就是“伪标签”。将其放到原来的训练集当中,同时再次开始训练出一个最新的model。
最后再用这个最新的model,在我们的测试集上用真实的标签来验证模型的正确性。整体流程如下图所示:
在半监督学习当中,用无标签数据的优点如下:
- 有标签数据往往意味着高成本和难以获得,但无标签数据量大又便宜。
- 通过提高决策边界的精确性,它们能提高模型的稳健性。
- 在机器学习竞赛当当中常常用来上分
具体的步骤整理如下,和大家一起看一下:
- 将有标签部分数据分为两份:train_set&validation_set,并训练出最优的model1
- 用model1对未知标签数据(test_set)进行预测,给出伪标签结果pseudo-labeled
- 将train_set中抽取一部分做新的validation_set,把剩余部分与pseudo-labeled部分融合作为新的train_set,训练出最优的model2
- 再用model2对未知标签数据(test_set)进行预测,得到最终的final result label
相关文章
- 机器学习HW2,logistic二分类的问题,使用adagrad进行梯度下降
- 软件——机器学习与Python,if __name__ == '__main__':函数
- (《机器学习》完整版系列)第4章 线性模型——4.4 连续变量的决策树(以属性为轴的坐标系)
- 机器学习笔记之支持向量机(四)软间隔SVM
- 开发者成功使用机器学习的十大诀窍
- 利用机器学习技术进行图像识别
- 如何利用机器学习和分布式计算来对用户事件进行聚类
- 大数据与机器学习:实践方法与行业案例.3.1 数据缓冲区的基本规则
- 机器学习模型如何转换成零依赖代码
- 《Python机器学习——预测分析核心算法》——第1章 关于预测的两类核心算法
- Python 机器学习之使用 AUTO ARIMA + PROPHET + LightGBM 进行时间序列预测
- 大数据与机器学习:实践方法与行业案例.2.6 本章小结
- 机器学习入门--MNIST(一)
- 统计学方法&机器学习实战(一) 机器学习基础
- C++机器学习古典材料
- 【机器学习】:Xgboost使用optuna进行调试参数
- 机器学习——人工神经网络之参数设置(BP算法)
- Python机器学习:使用Pandas进行探索性数据分析 Ⅱ