LLM-数据集:30个大语言模型训练相关的数据集【Pile(825 GiB)】
2023-09-27 14:20:37 时间
上一期我们分享了《ChatGPT数据集之谜》一文,从模型角度切入,按六大分类(维基百科、书籍、期刊、Reddit链接、Common Crawl、其他),分析梳理了2018年到2022年初从GPT-1到Gopher的现代大语言模型相关的所有训练数据集域、token数量等详情。
今天我们继续以这6大分类为脉络,从公开数据集角度切入,整理了OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源,希望能为大家节省部分数据准备时间,和带来启发。
大语言模型数据集分类:
分类参考:《ChatGPT数据集之谜》和网络整理
一、维基百科类
No.1
Identifying Machine-Paraphrased Plagiarism
● 发布方:德国伍珀塔尔大学 · 布尔诺孟德
相关文章
- 计算机等级考试二级C语言程序设计专项训练题——多项式求值
- 人脸识别5.1- insightface人脸检测模型scrfd-训练实战笔记,目标检测的理论理解
- 随机切分csv训练集和测试集
- pytorch yolov3 推理和训练环境搭建
- 力扣解法汇总2383. 赢得比赛需要的最少训练时长
- CSS训练合集——绘制三角形
- 【转载】 在PyTorch训练一个epoch时,模型不能接着训练,Dataloader卡死——在pytorch中尽量不要使用opencv而是使用PIL
- AI学习---基于TensorFlow的案例[实现线性回归的训练]
- 什么是NoSQL?随着这次训练就来学习一下
- 手把手教你搭建一个深度网络模型:从输入层-激活函数-损失函数-优化方法-输出层-执行训练
- 04-05组合问题_算法训练
- 利用keras进行手写数字识别模型训练,并输出训练准确度
- 深度学习数据集整理工具(从海量训练集中均匀挑选一定比例的文件)
- Python蓝桥杯训练:基本数据结构 [二叉树] 中
- XGBoost数据训练小例子