OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Ragas — 专注 RAG 系统质量评估的工具集

Ragas — 专注 RAG 系统质量评估的工具集

 
  boost ·  2026-02-19 01:08:23 · 6 次点击  · 0 条评论  

为你的 LLM 应用评估注入强劲动力 🚀

Latest release Made with Python License Apache-2.0 Ragas Downloads per month Join Ragas community on Discord Ask DeepWiki.com

文档 | 快速开始 | 加入 Discord | 博客 | 新闻通讯 | 招聘

为 LLM 应用提供客观指标、智能测试生成与数据驱动的洞见。

Ragas 是你评估和优化大语言模型(LLM)应用的终极工具包。告别耗时、主观的评估,迎接数据驱动、高效的工作流程。
还没有准备好测试数据集?我们也提供面向生产环境的测试集生成。

核心特性

  • 🎯 客观指标:使用基于 LLM 和传统指标,精准评估你的 LLM 应用。
  • 🧪 测试数据生成:自动创建覆盖广泛场景的综合测试数据集。
  • 🔗 无缝集成:与 LangChain 等主流 LLM 框架及主要可观测性工具完美协作。
  • 📊 构建反馈循环:利用生产数据持续改进你的 LLM 应用。

:shield: 安装

通过 Pypi 安装:

pip install ragas

或者,从源码安装:

pip install git+https://github.com/vibrantlabsai/ragas

:fire: 快速开始

克隆一个完整的示例项目

最快上手的方式是使用 ragas quickstart 命令:

# 列出可用模板
ragas quickstart

# 创建一个 RAG 评估项目
ragas quickstart rag_eval

# 指定创建位置
ragas quickstart rag_eval -o ./my-project

可用模板:
- rag_eval - 评估 RAG 系统

即将推出:
- agent_evals - 评估 AI 智能体
- benchmark_llm - 基准测试与比较 LLM
- prompt_evals - 评估提示词变体
- workflow_eval - 评估复杂工作流

评估你的 LLM 应用

ragas 为常见的评估任务提供了预置指标。例如,使用 DiscreteMetric 的 Aspect Critique 可以评估你输出的任何方面:

import asyncio
from openai import AsyncOpenAI
from ragas.metrics import DiscreteMetric
from ragas.llms import llm_factory

# 设置你的 LLM
client = AsyncOpenAI()
llm = llm_factory("gpt-4o", client=client)

# 创建一个自定义方面评估器
metric = DiscreteMetric(
    name="summary_accuracy",
    allowed_values=["accurate", "inaccurate"],
    prompt="""评估摘要是否准确并抓住了关键信息。

响应:{response}

仅用 'accurate' 或 'inaccurate' 回答。"""
)

# 为你的应用输出评分
async def main():
    score = await metric.ascore(
        llm=llm,
        response="The summary of the text is..."
    )
    print(f"评分: {score.value}")  # 'accurate' 或 'inaccurate'
    print(f"理由: {score.reason}")


if __name__ == "__main__":
    asyncio.run(main())

注意:请确保已设置 OPENAI_API_KEY 环境变量。

查看完整的 快速开始指南

需要帮助使用评估来改进你的 AI 应用吗?

在过去两年中,我们见证并帮助许多 AI 应用通过评估实现了改进。如果你希望借助评估来改进和扩展你的 AI 应用。

🔗 预约一个 时间 或给我们发邮件:founders@vibrantlabs.com

🫂 社区

如果你想更深入地参与 Ragas,请加入我们的 Discord 服务器。这是一个有趣的社区,我们在这里探讨 LLM、检索、生产问题等话题。

贡献者

+----------------------------------------------------------------------------+
|     +----------------------------------------------------------------+     |
|     | 开发者:那些使用 `ragas` 构建项目的人。                        |     |
|     | (你的项目中有 `import ragas`)                                |     |
|     |     +----------------------------------------------------+     |     |
|     |     | 贡献者:那些让 `ragas` 变得更好的人。              |     |     |
|     |     | (你向此仓库提交了 PR)                             |     |     |
|     |     +----------------------------------------------------+     |     |
|     +----------------------------------------------------------------+     |
+----------------------------------------------------------------------------+

我们欢迎来自社区的贡献!无论是修复错误、添加功能还是改进文档,你的贡献都很有价值。

  1. Fork 本仓库
  2. 创建你的功能分支 (git checkout -b feature/AmazingFeature)
  3. 提交你的更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 开启一个 Pull Request

🔍 开放分析

在 Ragas,我们坚信透明度。我们收集最少量、匿名的使用数据,以改进我们的产品并指导开发工作。

✅ 不收集个人或公司识别信息

✅ 开源的数据收集 代码

✅ 公开可用的聚合 数据

如需选择退出,请将 RAGAS_DO_NOT_TRACK 环境变量设置为 true

引用我们

@misc{ragas2024,
  author       = {VibrantLabs},
  title        = {Ragas: Supercharge Your LLM Application Evaluations},
  year         = {2024},
  howpublished = {\url{https://github.com/vibrantlabsai/ragas}},
}
6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 25 ms
Developed with Cursor