首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

IMDB 数据集简介

数据集概述

这是一个用于情感分析（二分类）的经典文本数据集，由斯坦福大学自然语言处理团队（stanfordnlp）发布和维护。数据集包含来自互联网电影数据库（IMDb）的影评文本。

主要用途

情感分析：判断影评是正面（positive）还是负面（negative）
文本分类模型训练与评估：作为自然语言处理（NLP）领域的基准数据集
机器学习/深度学习教学与研究

数据类型与模态

模态：纯文本（text）
数据格式：影评文本内容及其对应的情感标签（正/负）

规模与统计

数据量：100,000 条影评样本
下载量：超过 95,000 次（截至 2024 年 1 月）
社区认可度：获得 362 次点赞

使用场景

训练情感分类器（如使用 LSTM、BERT 等模型）
评估文本表示学习方法的效果
作为 NLP 入门项目的标准数据集
学术研究中的基准对比

特点

平衡数据集：通常包含等量的正面和负面评论
高质量标注：情感标签明确
广泛使用：在学术论文和教程中频繁出现
易于获取：无需特殊权限即可下载使用

该数据集是自然语言处理领域最常用、最经典的基准数据集之一，特别适合情感分析任务的学习和实践。

数据集地址：https://huggingface.co/datasets/stanfordnlp/imdb

74 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 9 ms

Developed with Cursor