以下为卖家选择提供的数据验证报告:
数据描述
COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性,数据集详情请见数据介绍以及我们接下来的论文。
- Curated by: 来自零一万物、中科院深圳先进技术研究院,和M-A-P等机构的研究者们。
- Language(s) (NLP): 本数据集主要语言为中文。
本数据集当前为v0.1版本,如果您在使用中发现数据集存在问题或者有可以改进的地方,欢迎联系我们!
Uses
Direct Use
本数据集适用于指令微调,训练模型具备响应指令的能力。
数据
数据格式
{
"instruction": "示例问题或者指令。",
"input": "示例问题或指令的补充。",
"output": "对输入的回复。",
"task_type": {
"major": ["问答"],
"minor": ["百科问答"]
},
"domain": ["百科", "医疗"],
"answer_from": "human",
"human_verified": true,
"copyright": "作者及版权信息。",
}
数据字段
instruction
: 用于输入的指令或者问题。input
: 问题或指令的补充内容。output
: 输入对应的回答。task_type
: 表示该数据所属的主要任务类型和细分任务类型。domain
: 该数据数据所属领域。answer_from
: 回答是人类撰写的还是大模型撰写的,本数据集中绝大部分是由人类撰写的回答,少部分由大模型生成(经过了人工验证)。human_verified
: 该数据是否有人类核验过。copyright
: 包括该数据的版权信息,包括作者等。
数据截图

COIG-CQIA
15.34MB
申请报告