OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 代码 › Data-to-Paper 从数据分析到论文生成的科研自动化Agent

Data-to-Paper 从数据分析到论文生成的科研自动化Agent

base · 2026-03-24 07:39:19 · 71 次点击 · 0 条评论

可回溯的 AI 驱动研究

data-to-paper 是一个自动化框架，它通过引导多个交互的 AI 智能体，系统地完成从端到端的完整科学研究过程。
该过程仅从原始数据开始，最终生成透明、可回溯、可由人类验证的科学论文
（AI 生成的论文示例，
副驾驶应用 DEMO）。
本代码库是论文《"Autonomous LLM-Driven Research — from Data to Human-Verifiable Research Papers"》的实现。

立即尝试

pip install data-to-paper

然后运行：data-to-paper

依赖项请参阅 INSTALL。

主要特性

端到端、领域无关的研究。 该过程引导完成整个科学路径，从数据探索、文献检索和构思，到数据分析和解读，再到逐步撰写完整的研究论文。
可追溯的“数据链”手稿。 通过追踪信息流，data-to-paper 创建了可回溯和可验证的手稿。其中的任何数值都可以通过点击追溯到生成它们的特定代码行（数据链演示 DEMO）。
自动驾驶或副驾驶模式。 该平台可以完全自主运行，也可以通过副驾驶应用进行人工引导，允许用户：
- 监督、检查和指导研究过程
- 设定研究目标，或让 AI 自主提出并检验假设
- 提供审阅意见，或按需调用 AI 审阅
- 将过程回退到之前的步骤
- 记录和回放运行过程
- 追踪 API 成本
编码护栏。 对标准统计软件包进行了覆盖，并设置了多重护栏，以最大程度减少常见的 LLM 编码错误。

https://github.com/Technion-Kishony-lab/data-to-paper/assets/31969897/0f3acf7a-a775-43bd-a79c-6877f780f2d4

动机：为透明、可追溯、可验证的 AI 驱动研究建立新标准

data-to-paper 框架作为一个研究项目而创建，旨在理解 LLM 驱动科学研究的潜力和局限，并开发利用 LLM 加速研究的方法，同时保持甚至提升科学的核心价值，如透明度、可追溯性和可验证性，并允许科学家监督和指导整个过程（另请参阅：动态指南）。

实现方式

为实现这一目标，data-to-paper 系统地引导交互的 LLM 和基于规则的智能体，沿着传统的科学路径前进：从带注释的数据开始，到创建研究假设、进行文献检索、编写和调试数据分析代码、解读结果，最终逐步撰写完整的研究论文。

参考文献

data-to-paper 框架在以下 NEJM AI 论文中进行了描述：
* Tal Ifargan, Lukas Hafner, Maor Kern, Ori Alcalay 和 Roy Kishony，
"Autonomous LLM-Driven Research — from Data to Human-Verifiable Research Papers"
10.1056/AIoa2400555

以及以下预印本：
* Tal Ifargan, Lukas Hafner, Maor Kern, Ori Alcalay 和 Roy Kishony，
"Autonomous LLM-driven research from data to human-verifiable research papers",
arXiv:2404.17605

示例

我们在以下测试案例上运行了 data-to-paper：

健康指标（开放目标）。 美国疾病控制与预防中心（CDC）2015 年行为风险因素监测系统（BRFSS）年度数据集的一个干净、未加权的子集（Kaggle）。这是 data-to-paper 创建的示例论文。

尝试运行：

data-to-paper diabetes

社交网络（开放目标）。 第 117 届国会成员之间 Twitter 互动的有向图（Fink 等人）。这是 data-to-paper 创建的示例论文。

尝试运行：

data-to-paper social_network

治疗策略（固定目标）。 关于非活跃婴儿入住新生儿重症监护室（NICU）前后的治疗和结果的数据集，这些数据是在治疗指南变更前后收集的（Saint-Fleur 等人）。这是 data-to-paper 创建的示例论文。

尝试运行：

data-to-paper npr_nicu

治疗优化（固定目标）。 一组接受手术后进行机械通气的儿科患者数据集，包括基于 X 射线确定的最佳气管插管深度，以及一组用于机器学习和基于公式的模型来预测此最佳深度的个性化患者属性（Shim 等人）。这是 data-to-paper 创建的示例论文。

我们为这篇论文的研究问题定义了三个难度级别。
1. 简单：比较两种预测最佳插管深度的机器学习方法
尝试运行：
shell data-to-paper ML_easy

中等：比较一种机器学习方法和一种基于公式的方法来预测最佳插管深度
尝试运行：
shell data-to-paper ML_medium
困难：比较 4 种机器学习方法和 3 种基于公式的方法来预测最佳插管深度
尝试运行：
shell data-to-paper ML_hard

贡献

我们邀请大家尝试使用 data-to-paper 处理自己的数据，并热切期待反馈和建议。
目前它主要设计用于相对简单的研究目标和数据集，旨在提出并检验统计假设。

我们也邀请大家帮助开发和扩展 data-to-paper 框架，无论是在科学领域还是其他领域。

重要说明

免责声明。 使用本软件即表示您同意承担使用本软件所涉及的所有风险，包括但不限于数据丢失、系统故障或可能出现的任何其他问题，特别是（但不限于）在本地机器上运行由 LLM 生成的代码所带来的后果。本项目的开发者对因使用本软件而可能发生的任何损失、损害或其他后果不承担任何责任。

责任归属。 您对生成的手稿的全部内容负全责，包括其严谨性、质量、伦理以及任何其他方面。整个过程应由人类参与监督和指导，生成的手稿应由领域专家仔细审查。该过程并非万无一失，必须有人类干预以确保结果的准确性和质量。

合规性。 您有责任确保基于本软件输出所做的任何行动或决定符合所有适用的法律、法规和道德标准。本项目的开发者和贡献者不对使用本软件产生的任何后果负责。此外，data-to-paper 生成的手稿会添加水印以透明标识为 AI 生成。用户不应移除此水印。

令牌使用。 请注意，通过外部 API 使用大多数语言模型（尤其是 GPT-4）可能会因令牌使用而产生高昂费用。使用本项目即表示您承认自己负责监控和管理自己的令牌使用及相关费用。强烈建议您定期检查 API 使用情况，并设置必要的限制或警报，以防止产生意外费用。

Data-to-Paper 从数据分析到论文生成的科研自动化Agent

可回溯的 AI 驱动研究

立即尝试

主要特性

动机：为透明、可追溯、可验证的 AI 驱动研究建立新标准

实现方式

参考文献

示例

贡献

重要说明

相关项目