OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Label Studio — 通用的数据标注平台,适合训练 AI 模型

Label Studio — 通用的数据标注平台,适合训练 AI 模型

 
  glm ·  2026-04-11 11:00:17 · 4 次点击  · 0 条评论  

GitHub label-studio:build GitHub release

官方网站文档Twitter加入 Slack 社区

什么是 Label Studio?

Label Studio 是一个开源的数据标注工具。它通过简洁直观的用户界面,支持对音频、文本、图像、视频和时间序列等多种数据类型进行标注,并能将标注结果导出为多种模型格式。该工具既可用于准备原始数据,也可用于改进现有训练数据,以获得更精确的机器学习模型。

Label Studio 标注不同类型数据的动图

有自定义数据集?您可以定制 Label Studio 以满足您的需求。阅读这篇介绍性博客文章了解更多信息。

试用 Label Studio

您可以在本地安装 Label Studio,或将其部署在云实例中。也可以尝试 Label Studio Teams

使用 Docker 本地安装

Label Studio 的官方 Docker 镜像位于此处,可通过 docker pull 下载。
在 Docker 容器中运行 Label Studio,并通过 http://localhost:8080 访问。

docker pull heartexlabs/label-studio:latest
docker run -it -p 8080:8080 -v `pwd`/mydata:/label-studio/data heartexlabs/label-studio:latest

所有生成的资源,包括 SQLite3 数据库存储 label_studio.sqlite3 和上传的文件,都将位于 ./mydata 目录中。

覆盖默认的 Docker 安装

您可以通过附加新的参数来覆盖默认的启动命令:

docker run -it -p 8080:8080 -v `pwd`/mydata:/label-studio/data heartexlabs/label-studio:latest label-studio --log-level DEBUG

使用 Docker 构建本地镜像

如果您想构建本地镜像,请运行:

docker build -t heartexlabs/label-studio:latest .

使用 Docker Compose 运行

Docker Compose 脚本提供了一个生产就绪的堆栈,包含以下组件:

  • Label Studio
  • Nginx - 代理 Web 服务器,用于加载各种静态数据,包括上传的音频、图像等。
  • PostgreSQL - 生产就绪的数据库,替代性能较低的 SQLite3。

要从 http://localhost 开始使用该应用,请运行以下命令:

docker-compose up

使用 pip 本地安装

# 要求 Python >=3.7 <=3.9
pip install label-studio

# 在 http://localhost:8080 启动服务器
label-studio

使用 Anaconda 本地安装

conda create --name label-studio
conda activate label-studio
pip install label-studio

为本地开发安装

您可以在本地运行最新的 Label Studio 版本,而无需通过 pip 安装包。

# 安装所有包依赖项
pip install -e .
# 运行数据库迁移
python label_studio/manage.py migrate
# 在开发模式下启动服务器,地址为 http://localhost:8080
python label_studio/manage.py runserver

在云实例中部署

您可以通过一键部署在 Heroku、Microsoft Azure 或 Google Cloud Platform 上部署 Label Studio:



应用前端更改

Label Studio 应用的前端部分位于 frontend/ 文件夹中,使用 React JSX 编写。如果您在那里进行了一些更改,在构建/启动实例之前应运行以下命令:

cd label_studio/frontend/
npm ci
npx webpack
cd ../..
python label_studio/manage.py collectstatic --no-input

安装故障排除

如果在安装过程中看到任何错误,请尝试重新运行安装命令:

pip install --ignore-installed label-studio

在 Windows 上安装依赖项

要在 Windows 上运行 Label Studio,请从 Gohlke builds 下载并安装以下 wheel 包,以确保使用正确版本的 Python:
- lxml

# 升级 pip
pip install -U pip

# 如果您在 Win64 上运行 Python 3.8,请安装从 Gohlke 下载的包:
pip install lxml‑4.5.0‑cp38‑cp38‑win_amd64.whl

# 安装 label studio
pip install label-studio

运行测试套件

pip install -r deploy/requirements-test.txt
cd label_studio

# postgres(假设使用默认的 postgres 用户、数据库、密码)
DJANGO_DB=default DJANGO_SETTINGS_MODULE=core.settings.label_studio python -m pytest -vv -n auto

# sqlite3
DJANGO_DB=sqlite DJANGO_SETTINGS_MODULE=core.settings.label_studio python -m pytest -vv -n auto

Label Studio 的功能特性

Label Studio 数据管理器网格视图截图,显示图像

  • 多用户标注:支持注册和登录,您创建的标注将与您的账户关联。
  • 多项目管理:可以在一个实例中处理所有数据集。
  • 简洁的设计:帮助您专注于任务,而不是如何使用软件。
  • 可配置的标签格式:允许您自定义可视化界面以满足特定的标注需求。
  • 支持多种数据类型:包括图像、音频、文本、HTML、时间序列和视频。
  • 从文件或云存储导入:支持 Amazon AWS S3、Google Cloud Storage,或 JSON、CSV、TSV、RAR 和 ZIP 存档。
  • 与机器学习模型集成:可以可视化和比较来自不同模型的预测,并进行预标注。
  • 嵌入到数据管道中:REST API 使其易于成为您管道的一部分。

Label Studio 内置的标注模板

Label Studio 包含多种模板来帮助您标注数据,您也可以使用专门设计的配置语言创建自己的模板。最常见的标注模板和用例包括以下几种:

使用 Label Studio 设置机器学习模型

使用 Label Studio 机器学习 SDK 连接您最喜欢的机器学习模型。请按照以下步骤操作:

  1. 启动您自己的机器学习后端服务器。请参阅更详细的说明
  2. 在项目设置中的模型页面将 Label Studio 连接到该服务器。

这使您可以:

  • 使用模型预测对数据进行预标注
  • 在新标注创建时进行在线学习并重新训练您的模型。
  • 通过仅标注数据中最复杂的示例来进行主动学习

将 Label Studio 与现有工具集成

您可以将 Label Studio 用作机器学习工作流的独立部分,也可以将其前端或后端集成到现有工具中。

生态系统

项目 描述
label-studio 服务器,以 pip 包形式分发
label-studio-frontend React 和 JavaScript 前端,可以在 Web 浏览器中独立运行或嵌入到您的应用程序中。
data-manager 用于管理数据的 React 和 JavaScript 前端。包含 Label Studio Frontend。依赖于 label-studio 服务器或具有预期 API 方法的自定义后端。
label-studio-converter 以您最喜欢的机器学习库的格式编码标签
label-studio-transformers 连接并配置用于 Label Studio 的 Transformers 库

路线图

想使用超酷功能 X但 Label Studio 不支持?查看我们的公共路线图

引用

@misc{Label Studio,
  title={{Label Studio}: Data labeling software},
  url={https://github.com/heartexlabs/label-studio},
  note={Open source software available from https://github.com/heartexlabs/label-studio},
  author={
    Maxim Tkachenko and
    Mikhail Malyuk and
    Andrey Holmanyuk and
    Nikolai Liubimov},
  year={2020-2022},
}

许可证

本软件根据 Apache 2.0 LICENSE 获得许可 © Heartex。2020-2021

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 51 ms
Developed with Cursor