巴拉数

verify-tagCOIG-CQIA

COIG-CQIA中文NLPLIMA数据集

1.5

已售 2
15.34MB

数据标识:D17132608543947858

发布时间:2024/04/16

以下为卖家选择提供的数据验证报告:

数据描述

COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性,数据集详情请见数据介绍以及我们接下来的论文。

  • Curated by: 来自零一万物、中科院深圳先进技术研究院,和M-A-P等机构的研究者们。
  • Language(s) (NLP): 本数据集主要语言为中文。

本数据集当前为v0.1版本,如果您在使用中发现数据集存在问题或者有可以改进的地方,欢迎联系我们!

Uses

Direct Use

本数据集适用于指令微调,训练模型具备响应指令的能力。

数据

数据格式

{
    "instruction": "示例问题或者指令。",
    "input": "示例问题或指令的补充。",
    "output": "对输入的回复。",
    "task_type": {
        "major": ["问答"],
        "minor": ["百科问答"]
    },
    "domain": ["百科", "医疗"],
    "answer_from": "human",
    "human_verified": true,
    "copyright": "作者及版权信息。",
}

数据字段

  • instruction: 用于输入的指令或者问题。
  • input: 问题或指令的补充内容。
  • output: 输入对应的回答。
  • task_type: 表示该数据所属的主要任务类型和细分任务类型。
  • domain: 该数据数据所属领域。
  • answer_from: 回答是人类撰写的还是大模型撰写的,本数据集中绝大部分是由人类撰写的回答,少部分由大模型生成(经过了人工验证)。
  • human_verified: 该数据是否有人类核验过。
  • copyright: 包括该数据的版权信息,包括作者等。

数据截图

data icon
COIG-CQIA
1.5
已售 2
15.34MB
申请报告