据 Cointelegraph 报道,来自人工智能公司AutoGPT、东北大学和微软研究院的研究团队开发了一种监控大型语言模型(LLMs)的工具,以防止潜在的有害输出并阻止其执行。这种代理在一篇名为《在野外安全测试语言模型代理》的预印研究论文中进行了描述。研究表明,该代理足够灵活,可以监控现有的LLMs,并在有害输出(如代码攻击)发生之前将其阻止。研究团队表示,现有的监控LLM输出以防止有害互动的工具在实验室环境中表现良好,但在应用于已在开放互联网上投入生产的测试模型时,它们“往往无法捕捉到现实世界的动态复杂性”。为了训练监控代理,研究人员构建了一个包含近2000个安全人工智能互动的数据集,涵盖了从简单的文本检索任务和编码修正到从零开始开发整个网页的29个不同任务。他们还创建了一个竞争性测试数据集,其中包含了手动创建的对抗性输出,其中数十个被故意设计成不安全的。然后,这些数据集被用来训练一个基于OpenAI的GPT 3.5 turbo的代理,这是一个最先进的系统,能够以近90%的准确度区分无害和潜在有害的输出。