Ragas — 专注 RAG 系统质量评估的工具集

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

为你的 LLM 应用评估注入强劲动力 🚀

文档 | 快速开始 | 加入 Discord | 博客 | 新闻通讯 | 招聘

为 LLM 应用提供客观指标、智能测试生成与数据驱动的洞见。

Ragas 是你评估和优化大语言模型（LLM）应用的终极工具包。告别耗时、主观的评估，迎接数据驱动、高效的工作流程。
还没有准备好测试数据集？我们也提供面向生产环境的测试集生成。

核心特性

🎯 客观指标：使用基于 LLM 和传统指标，精准评估你的 LLM 应用。
🧪 测试数据生成：自动创建覆盖广泛场景的综合测试数据集。
🔗 无缝集成：与 LangChain 等主流 LLM 框架及主要可观测性工具完美协作。
📊 构建反馈循环：利用生产数据持续改进你的 LLM 应用。

:shield: 安装

通过 Pypi 安装：

pip install ragas

或者，从源码安装：

pip install git+https://github.com/vibrantlabsai/ragas

:fire: 快速开始

克隆一个完整的示例项目

最快上手的方式是使用 ragas quickstart 命令：

# 列出可用模板
ragas quickstart

# 创建一个 RAG 评估项目
ragas quickstart rag_eval

# 指定创建位置
ragas quickstart rag_eval -o ./my-project

可用模板：
- rag_eval - 评估 RAG 系统

即将推出：
- agent_evals - 评估 AI 智能体
- benchmark_llm - 基准测试与比较 LLM
- prompt_evals - 评估提示词变体
- workflow_eval - 评估复杂工作流

评估你的 LLM 应用

ragas 为常见的评估任务提供了预置指标。例如，使用 DiscreteMetric 的 Aspect Critique 可以评估你输出的任何方面：

import asyncio
from openai import AsyncOpenAI
from ragas.metrics import DiscreteMetric
from ragas.llms import llm_factory

# 设置你的 LLM
client = AsyncOpenAI()
llm = llm_factory("gpt-4o", client=client)

# 创建一个自定义方面评估器
metric = DiscreteMetric(
    name="summary_accuracy",
    allowed_values=["accurate", "inaccurate"],
    prompt="""评估摘要是否准确并抓住了关键信息。

响应：{response}

仅用 'accurate' 或 'inaccurate' 回答。"""
)

# 为你的应用输出评分
async def main():
    score = await metric.ascore(
        llm=llm,
        response="The summary of the text is..."
    )
    print(f"评分: {score.value}")  # 'accurate' 或 'inaccurate'
    print(f"理由: {score.reason}")


if __name__ == "__main__":
    asyncio.run(main())

注意：请确保已设置 OPENAI_API_KEY 环境变量。

查看完整的快速开始指南

需要帮助使用评估来改进你的 AI 应用吗？

在过去两年中，我们见证并帮助许多 AI 应用通过评估实现了改进。如果你希望借助评估来改进和扩展你的 AI 应用。

🔗 预约一个时间或给我们发邮件：founders@vibrantlabs.com。

🫂 社区

如果你想更深入地参与 Ragas，请加入我们的 Discord 服务器。这是一个有趣的社区，我们在这里探讨 LLM、检索、生产问题等话题。

贡献者

+----------------------------------------------------------------------------+
|     +----------------------------------------------------------------+     |
|     | 开发者：那些使用 `ragas` 构建项目的人。                        |     |
|     | （你的项目中有 `import ragas`）                                |     |
|     |     +----------------------------------------------------+     |     |
|     |     | 贡献者：那些让 `ragas` 变得更好的人。              |     |     |
|     |     | （你向此仓库提交了 PR）                             |     |     |
|     |     +----------------------------------------------------+     |     |
|     +----------------------------------------------------------------+     |
+----------------------------------------------------------------------------+

我们欢迎来自社区的贡献！无论是修复错误、添加功能还是改进文档，你的贡献都很有价值。

Fork 本仓库
创建你的功能分支 (git checkout -b feature/AmazingFeature)
提交你的更改 (git commit -m 'Add some AmazingFeature')
推送到分支 (git push origin feature/AmazingFeature)
开启一个 Pull Request

🔍 开放分析

在 Ragas，我们坚信透明度。我们收集最少量、匿名的使用数据，以改进我们的产品并指导开发工作。

✅ 不收集个人或公司识别信息

✅ 开源的数据收集代码

✅ 公开可用的聚合数据

如需选择退出，请将 RAGAS_DO_NOT_TRACK 环境变量设置为 true。

引用我们

@misc{ragas2024,
  author       = {VibrantLabs},
  title        = {Ragas: Supercharge Your LLM Application Evaluations},
  year         = {2024},
  howpublished = {\url{https://github.com/vibrantlabsai/ragas}},
}

项目地址：https://github.com/explodinggradients/ragas

62 次点击 ∙ 0 人收藏

登录后收藏

0 条回复