COIG-CQIA

巴拉数

COIG-CQIA中文NLPLIMA数据集

￥1.5

已售 2

15.34MB

数据标识：D17132608543947858

发布时间：2024/04/16

COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need，是一个开源的高质量指令微调数据集，旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据，经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发，使用少量高质量的数据即可让大语言模型学习到人类交互行为，因此在数据构建中我们十分注重数据的来源、质量与多样性，数据集详情请见数据介绍以及我们接下来的论文。

Curated by: 来自零一万物、中科院深圳先进技术研究院，和M-A-P等机构的研究者们。
Language(s) (NLP): 本数据集主要语言为中文。

本数据集当前为v0.1版本，如果您在使用中发现数据集存在问题或者有可以改进的地方，欢迎联系我们！

Uses

Direct Use

本数据集适用于指令微调，训练模型具备响应指令的能力。

数据

数据格式

{
    "instruction": "示例问题或者指令。",
    "input": "示例问题或指令的补充。",
    "output": "对输入的回复。",
    "task_type": {
        "major": ["问答"],
        "minor": ["百科问答"]
    },
    "domain": ["百科", "医疗"],
    "answer_from": "human",
    "human_verified": true,
    "copyright": "作者及版权信息。",
}

数据字段

instruction: 用于输入的指令或者问题。
input: 问题或指令的补充内容。
output: 输入对应的回答。
task_type: 表示该数据所属的主要任务类型和细分任务类型。
domain: 该数据数据所属领域。
answer_from: 回答是人类撰写的还是大模型撰写的，本数据集中绝大部分是由人类撰写的回答，少部分由大模型生成（经过了人工验证）。
human_verified: 该数据是否有人类核验过。
copyright: 包括该数据的版权信息，包括作者等。

数据截图

看了又看

验证报告

以下为卖家选择提供的数据验证报告：

COIG-CQIA

￥1.5

已售 2

15.34MB

申请报告

COIG-CQIA

Uses

Direct Use

数据

数据格式

数据字段

数据截图

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群