Argilla
为您的 AI 模型构建高质量数据集
Argilla 是一款为 AI 工程师和领域专家设计的协作工具,帮助他们为项目构建高质量数据集。
如果您想立即开始使用,可以[在 Hugging Face Spaces 上部署 Argilla](https://docs.v2.argilla.io/latest/getting_started/quickstart/)。若想了解更多,请阅读我们的[文档](https://docs.v2.argilla.io/latest/)。
您也可以使用 Hugging Face 账户登录,体验 Argilla UI:
## 为什么选择 Argilla?
Argilla 可用于收集各类 AI 项目的人力反馈,包括传统 NLP(文本分类、NER 等)、LLM(RAG、偏好微调等)或多模态模型(文本到图像等)。Argilla 的编程化方法让您能够构建持续评估和模型改进的工作流程。其目标是确保您通过快速迭代正确的数据和模型,让数据工作产生价值。
### 通过数据质量提升 AI 输出质量
计算成本高昂,输出质量至关重要。我们帮助您专注于数据,从根本上同时解决这两个问题。Argilla 协助您**为数据实现并保持高质量标准**,从而提升 AI 输出的质量。
### 掌握数据和模型的主动权
大多数 AI 工具是黑盒。Argilla 与众不同。我们相信您应该是数据和模型的所有者。因此,我们提供团队所需的所有工具,让您**以最适合的方式管理数据和模型**。
### 通过快速迭代正确的数据和模型提升效率
收集数据是一个耗时的过程。Argilla 通过提供更具吸引力的数据交互工具来为您提供帮助。您可以使用过滤器、AI 反馈建议和语义搜索快速轻松地标注数据,从而专注于训练模型和监控其性能。
## 🏘️ 社区
我们是一个开源、社区驱动的项目,非常期待听到您的声音。以下是一些参与方式:
- [社区聚会](https://lu.ma/embed-checkout/evt-IQtRiSuXZCIW6FB):参加我们的双周活动,聆听或发表演讲。
- [Discord](http://hf.co/join/discord):在 #argilla-distilabel-general 和 #argilla-distilabel-help 频道获得社区的直接支持。
- [路线图](https://github.com/orgs/argilla-io/projects/10/views/1):计划会变化,但我们乐于与社区讨论,欢迎您的参与。
## 人们用 Argilla 构建了什么?
### 开源数据集和模型
社区使用 Argilla 创建了令人惊叹的开源[数据集](https://huggingface.co/datasets?library=library:argilla&sort=trending)和[模型](https://huggingface.co/models?other=distilabel)。
- [清洗后的 UltraFeedback 数据集](https://huggingface.co/datasets/argilla/ultrafeedback-binarized-preferences-cleaned)用于微调 [Notus](https://huggingface.co/argilla/notus-7b-v1) 和 [Notux](https://huggingface.co/argilla/notux-8x7b-v1) 模型。原始 UltraFeedback 数据集通过 Argilla UI 过滤器进行筛选,发现并报告了原始数据生成代码中的错误。基于此数据筛选过程,Argilla 构建了该数据集的更新版本,并微调出在多个基准测试上优于 Zephyr 的 Notus。
- [distilabel Intel Orca DPO 数据集](https://huggingface.co/datasets/argilla/distilabel-intel-orca-dpo-pairs)用于微调[改进的 OpenHermes 模型](https://huggingface.co/argilla/distilabeled-OpenHermes-2.5-Mistral-7B)。该数据集通过将 Argilla 中的人力筛选与 distilabel 的 AI 反馈相结合而构建,生成了 Intel Orca 数据集的改进版本,并使得基于原始数据集微调的模型性能反而被超越。
### 使用案例示例
来自 [红十字会](https://510.global/)、[Loris.ai](https://loris.ai/) 和 [Prolific](https://www.prolific.com/) 等组织的 AI 团队使用 Argilla 提升 AI 项目的质量和效率。他们在我们的 [AI 社区聚会](https://lu.ma/embed-checkout/evt-IQtRiSuXZCIW6FB)中分享了他们的经验。
- **AI 向善**:[红十字会的演讲](https://youtu.be/ZsCqrAhzkFU?feature=shared)展示了红十字会领域专家和 AI 团队如何通过分类和重定向乌克兰危机难民的请求,来简化支持流程。
- **客户支持**:在 [Loris 聚会](https://youtu.be/jWrtgf2w4VU?feature=shared)中,他们展示了 AI 团队如何利用无监督和少样本对比学习,快速验证并获取大量多标签分类器的标注样本。
- **研究项目**:[Prolific 的展示](https://youtu.be/ePDlhIxnuAs?feature=shared)宣布了其与 Argilla 平台的集成。他们利用平台在其标注人员队伍中积极分发数据收集项目,从而快速、高效地收集高质量数据用于研究。
## 👨💻 开始使用
### 安装
首先,您可以使用 pip 安装 SDK:
pip install argilla
之后,您需要部署 Argilla 服务器。最简单的方式是通过我们的[免费 Hugging Face Spaces 部署集成](https://huggingface.co/new-space?template=argilla/argilla-template-space)。
使用客户端时,需要导入 `Argilla` 类,并使用 API URL 和 API 密钥实例化它。
import argilla as rg
client = rg.Argilla(api_url="https://[your-owner-name]-[your_space_name].hf.space", api_key="owner.apikey")
### 创建您的第一个数据集
现在,我们可以创建一个带有简单文本分类任务的数据集。首先,您需要定义数据集设置。
settings = rg.Settings(
guidelines="将评论分类为正面或负面。",
fields=[
rg.TextField(
name="review",
title="评论文本",
use_markdown=False,
),
],
questions=[
rg.LabelQuestion(
name="my_label",
title="这篇文章属于哪个类别?",
labels=["positive", "negative"],
)
],
)
dataset = rg.Dataset(
name=f"my_first_dataset",
settings=settings,
client=client,
)
dataset.create()
接下来,我们可以向数据集添加记录。
pip install datasets
from datasets import load_dataset
data = load_dataset("imdb", split="train[:100]").to_list()
dataset.records.log(records=data, mapping={"text": "review"})
🎉 您已成功使用 Argilla 创建了第一个数据集。您现在可以访问 Argilla UI 并开始标注记录。需要更多信息,请查看[我们的文档](https://docs.argilla.io/latest/)。
## 🥇 贡献者
为了帮助社区创建贡献,我们创建了[社区文档](https://docs.argilla.io/latest/community/)。此外,您可以随时与我们的开发者倡导团队[预约会议](https://calendly.com/david-berenstein-huggingface/30min),以便他们为您提供指导。