zl程序教程

您现在的位置是:首页 >  其他

当前栏目

LLM-数据集:30个大语言模型训练相关的数据集【Pile(825 GiB)】

训练语言数据 模型 相关 30
2023-09-27 14:20:37 时间

上一期我们分享了《ChatGPT数据集之谜》一文,从模型角度切入,按六大分类(维基百科、书籍、期刊、Reddit链接、Common Crawl、其他),分析梳理了2018年到2022年初从GPT-1到Gopher的现代大语言模型相关的所有训练数据集域、token数量等详情。

今天我们继续以这6大分类为脉络,从公开数据集角度切入,整理了OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源,希望能为大家节省部分数据准备时间,和带来启发。

大语言模型数据集分类:

分类参考:《ChatGPT数据集之谜》和网络整理

一、维基百科类

No.1

Identifying Machine-Paraphrased Plagiarism

● 发布方:德国伍珀塔尔大学 · 布尔诺孟德