巴拉数

verify-tag影视资源大数据训练集-40GB样例

0.5

已售 13
39.36GB

数据标识:D17237049190158248

发布时间:2024/08/15

以下为卖家选择提供的数据验证报告:

数据描述

【产品概述】

本数据集是为视频大模型训练而精心设计的高清影视资源集合,包含存储为1000TB高质量视频、字幕和音频文件。数据集的每一组资源均由视频文件、对应的字幕文件和音频文件组成,确保数据的完整性和一致性,适用于视频处理、机器学习和深度学习模型的训练和验证。

1. 数据集规模:包含1000万条高质量视频资源、电影资源(2000年~2024年 高IMDB评分)、高清记录片等。

2. 视频清晰度:720P高清       占 15%

                      1080P超清     占 50%

                       Blu-Ray蓝光  占 5%

                       4K高清          占 30%

3. 数据来源:资源网站+人工采集。


交付方式:

 1. 由需求方提供硬盘交付。

 2. 需求方提供服务器交付。

 

产品特点

  1. 高清质量:所有视频文件均为高清资源,确保训练数据的高质量。
  2. 一致性:视频、字幕和音频文件均经过严格匹配,文件命名一致,方便数据处理。
  3. 多模态数据:包括视频、字幕和音频,支持多模态学习任务,如视频内容理解、语音识别、字幕生成等。
  4. 易于集成:清晰的目录结构和文件命名规则,方便与现有的数据处理管道和机器学习框架集成。

 

许可证和使用条款

请注意,数据集使用需遵守相应的许可证协议和使用条款,确保数据用于合法和合规的研究或开发活动。

如有资源问题,请通过以下方式联系我们:
  • 微信:yu1027112897
  • 电话:18251839956
data icon
影视资源大数据训练集-40GB样例
0.5
已售 13
39.36GB
申请报告