标题:Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy
作者:Xiangru Tang, Qiao Jin, Kunlun Zhu, Tongxin Yuan, Yichi Zhang, Wangchunshu Zhou, Meng Qu, Yilun Zhao, Jian Tang, Zhuosheng Zhang, Arman Cohan, Zhiyong Lu, Mark Gerstein
提交/修订日期:2024年2月6日提交,2025年7月21日最新修订(v5)
摘要:
由大型语言模型驱动的AI科学家已在自主进行实验和促进跨学科科学发现方面展现出巨大潜力。尽管其能力前景广阔,但这些智能体也引入了新的脆弱性,需要仔细考虑安全性。然而,目前对这些脆弱性的全面探索仍然有限。本文从视角出发,审视了AI科学家存在的脆弱性,揭示了与其误用相关的潜在风险,并强调了安全措施的必要性。我们首先概述了AI科学家固有的潜在风险,考虑了用户意图、具体科学领域及其对外部环境的潜在影响。然后,我们探讨了这些脆弱性的根本原因,并对有限的现有工作进行了范围综述。基于我们的分析,我们提出了一个包含人类监管、智能体对齐以及对环境反馈理解(智能体调节)的三元框架,以缓解这些已识别的风险。此外,我们强调了保障AI科学家安全相关的局限性和挑战,并倡导开发改进的模型、稳健的基准测试和全面的法规。
主题/分类:
- 主要类别:计算机与社会 (cs.CY)
- 其他类别:人工智能 (cs.AI); 计算与语言 (cs.CL); 机器学习 (cs.LG)
arXiv标识符:arXiv:2402.04247 [cs.CY]