您现在的位置是：首页 > 其他

当前栏目

LLM-数据集：30个大语言模型训练相关的数据集【Pile（825 GiB）】

训练语言数据模型相关 30

2023-09-27 14:20:37 时间

上一期我们分享了《ChatGPT数据集之谜》一文，从模型角度切入，按六大分类（维基百科、书籍、期刊、Reddit链接、Common Crawl、其他），分析梳理了2018年到2022年初从GPT-1到Gopher的现代大语言模型相关的所有训练数据集域、token数量等详情。

今天我们继续以这6大分类为脉络，从公开数据集角度切入，整理了OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源，希望能为大家节省部分数据准备时间，和带来启发。

大语言模型数据集分类：

分类参考：《ChatGPT数据集之谜》和网络整理

一、维基百科类

No.1

Identifying Machine-Paraphrased Plagiarism

● 发布方：德国伍珀塔尔大学 · 布尔诺孟德

猜你喜欢

EM算法概念
一切尽显眼前：如何预防在虚拟化环境中丢失可视性和安全性
Linux如何查看JDK的安装路径
区块链技术在教育领域的应用模式与现实挑战
Vendor
【程序员自救指南】中关村保洁大叔的一句话竟然帮我转正了
The message queue
基于USB armory 制作一个USB恶意软件分析器
favicon.ico学习（三）实战
Handler "BlockViewHandler" has a bad module "ManagedPipelineHandler" in its module list
sql server常有的问题-实时错误'91' 对象变量或with块变量未设置
Golang：go-humanize将文件大小转换成Kb、Mb、Gb适合人类阅读的单位
工作中遇到的异常处理
VS开发】如何给console控制台程序更换应用程序图标
《生命视角：完成达尔文的革命》笔记
【算法】动态规划 ① ( 动态规划简介 | 自底向上的动态规划示例 | 自顶向下的动态规划示例 )
C语言：将16进制字符串转化为int类型值

相关主题

2023春训练7
蓝桥杯训练7
蓝桥杯训练6
蓝桥杯训练4
蓝桥杯训练1
2023.15 人工智能训练师
pytorch训练模型

zl程序教程

当前栏目

LLM-数据集：30个大语言模型训练相关的数据集【Pile（825 GiB）】

一、维基百科类

No.1

Identifying Machine-Paraphrased Plagiarism

相关文章