sklearn中的train_test_split (随机划分训练集和测试集)
2023-09-27 14:25:29 时间
from sklearn.model_selection import train_test_split
train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和test data。
语法:
X_train,X_test, y_train, y_test =
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
参数:
- train_data:所要划分的样本数据集
- train_target:所要划分的样本结果
- test_size:样本占比,如果是整数就是样本的数量
- random_state:随机数的种子
随机数种子:
其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到随机数组是一样的。但填0或不填,每次都不一样。
随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:
种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数。
官方文档:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
相关文章
- 行人重识别(deep-person-reid)环境搭建及模型训练,模型测试、特征显示
- [计算机视觉][神经网络与深度学习]SSD安装及其训练教程
- 【计算机视觉】【神经网络与深度学习】YOLO v2 detection训练自己的数据2
- 【神经网络与深度学习】用训练好的caffemodel来进行分类
- NLP-第三方库:Huggingface【非常流行的 NLP 库,用于构建、训练和部署最先进的 NLP 模型】【提供了两个主要的库:用于模型的transformers、用于数据集的datasets】
- NLP-预训练模型-2018-Bert-解析:BertForMaskedLM
- AI-多模态-2022:TCL【triple contrastive learning】【三重对比学习的视觉-语言预训练模型】
- PyTorch训练(十):多卡训练【CUDA_VISIBLE_DEVICES=‘0,2,3‘ python main.py】【前提是代码中已经设置好了DP或DDP训练模式】【训练样本平均分配到各卡】
- 【深度学习】如何分配训练集、验证集、测试集比例
- 训练好的深度学习模型,多种部署方式
- 学说话,大脑开发的第一步:0-3岁各阶段语言训练必修课
- 训练集、测试集的划分
- 【三】AI Studio 项目详解——单机多机训练分布式训练--PARL
- 橙白oj18训练作业2-题解、代码
- 3. 使用PyTorch深度学习库训练第一个卷积神经网络CNN
- fpga实操训练(按键输入)
- fpga实操训练(lcd测试)
- 2020-11-09 大二2020CF训练
- 2020-9-18 大二2020下训练一
- caffe搭建以及初步学习--win7-vs2013-gtx650tiboost-cuda8.0-cifar10训练和测试-2-完整解决方案cifar10_full_solver.prototxt
- caffe搭建以及初步学习--win7-vs2013-gtx650tiboost-cuda8.0-cifar10训练和测试-2-快速解决方案cifar10_quick_solver.prototxt
- 第十四届蓝桥杯三月真题刷题训练——第 10 天