用户标注数据集列表325


引言用户标注数据集对于机器学习和人工智能的开发至关重要。它们提供训练和评估模型所需的数据,使其能够对真实世界数据进行准确而可靠的预测。本文提供了可用用户标注数据集的全面列表,涵盖各种领域和用例。

图像标注数据集

ImageNet:包含超过 1000 万张图像,这些图像被分类为 20,000 多个不同的类别。该数据集广泛用于图像分类、目标检测和图像分割任务。

COCO(通用目标检测和分割):包含 90 类对象和 80 个场景的 300,000 多张图像。该数据集用于对象检测、图像分割和图像字幕生成。

VOC(视觉对象类):包含 25063 张图像和 50 万个对象的边界框标注。该数据集用于目标检测和图像分割研究。

文本标注数据集

IMDb:包含超过 5000 万条电影评论,已进行二进制分类(正面或负面)。该数据集用于情感分析、文本分类和机器翻译。

Yelp:包含 600 万个商家评论,已进行星级评级标注。该数据集用于情绪分析、文本分类和推荐系统。

AG News:包含 30 万篇新闻文章,已分类为 4 个类类别(世界、商业、体育、科技)。该数据集用于文本分类、机器翻译和摘要生成。

音频标注数据集

LibriSpeech:包含超过 1000 小时的英语朗读语音数据。该数据集用于自动语音识别、语音合成和自然语言处理。

VoxCeleb:包含超过 100 万个视频片段,其中包含 5000 名不同说话人的语音和面部数据。该数据集用于说话人识别、面部识别和唇语识别。

ESC-50:包含 50 类环境声音的 2000 多个录音。该数据集用于声音分类、环境监测和音乐信息检索。

视频标注数据集

Kinetics:包含 600 个动作类别的 65 万个视频。该数据集用于动作识别、视频分类和视频理解。

Moments in Time:包含 10 万个视频片段,其中包含 339 种不同类型的日常活动。该数据集用于视频分类、动作识别和事件检测。

UCF-101:包含 101 类动作的 13,320 个视频。该数据集用于动作识别、视频分类和运动分析。

其他用户标注数据集

自然语言处理

- SQUAD(斯坦福问答数据集):包含 107,785 个问题和答案对,来自维基百科文章。

- GLUE(通用语言理解评估):包含 9 个涵盖多种自然语言处理任务的数据集,包括文本分类、问答和自然语言推理。

计算机视觉

- Cityscapes:包含 5000 张城市街景图像,已进行语义分割和深度估计注释。

- Pascal VOC:包含 11540 张图像,已注释为 20 个对象类别和语义分割。

推荐系统

- Movielens:包含 100 万个电影评分,来自 6000 名用户。

- Jester:包含 70000 个笑话评分,来自 70000 名用户。

结论用户标注数据集对于人工智能和机器学习研究至关重要。它们提供高品质的数据,可用于训练和评估模型,以执行各种任务。本文提供的列表只是可用用户标注数据集的示例,还有许多其他数据集适用于特定领域或用例。通过利用这些数据集,研究人员可以开发出更准确、更可靠的机器学习模型,从而推动人工智能领域的发展。

2024-11-09


上一篇:词性标注常用算法类型

下一篇:驭势科技:数据标注领域的领军者