我做了个 AI Agent / RAG 安全测试工具

我做了个 AI Agent / RAG 安全测试工具
我做了个 AI Agent / RAG 安全测试工具
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

大家好,我最近开源了一个项目:RedForge AI。

RedForge AI 是一个面向 LLM 应用、RAG 系统、AI Agent、工具调用和 Memory 的红队评估框架。

我做它的原因是:现在很多 LLM 安全测试还停留在手搓 jailbreak prompt 的阶段,测试结果很难复现,也很难交给开发修复。RedForge 想解决的是"可授权、可限定范围、可记录证据、可复现、可生成报告"的问题。

它不是 C2,不是通用 Web 扫描器,也不是所谓"一键证明模型安全"的工具。它更像是一个面向 AI 应用安全评估的 campaign runner。

git clone https://github.com/Aimer-zero/redforge-ai.git
cd redforge-ai
make setup
make demo
open "$(uv run redforge latest-report --path-only --format html)"

目前支持的方向包括:

  • prompt injection / jailbreak 基础用例
  • RAG / tool use / memory / agent trust boundary 的评估框架
  • local demo target
  • custom HTTP target
  • OpenAI-compatible API target
  • CLI 和 FastAPI service mode
  • public plugin interface / attack pack / target adapter

我希望它不是一个"payload 仓库",而是一个更偏工程化的 LLM 安全评估工具:可以在本地跑、可以接进 CI、可以把结果交给开发和安全团队复盘。

项目还在 early preview,API / schema / CLI 都可能继续变化。目前最希望大家帮忙的是:

  1. 跑一下 demo,看看安装和报告体验有没有问题;
  2. 反馈你们常见的 LLM / RAG / Agent API 形态;
  3. 贡献安全、通用、可公开的 baseline attack cases;
  4. 帮忙改进 HTML report 和 CI 集成;
  5. 对架构和边界设计拍砖。

项目地址:

github.com

GitHub - Aimer-zero/redforge-ai: Open-core AI red teaming and offensive AI security...

Open-core AI red teaming and offensive AI security evaluation platform.

欢迎试用、提 issue、star 或直接吐槽。

为什么有这个想法?

最近几年AI爆发式的增长 各种各样的模型和Agent应用 安全方面就体现不是很好 于是就有了这个想法。

另外项目现在有一部分实验性内容还没有放进公开仓库,主要原因是还没整理干净,里面有不少和具体场景、内部测试环境绑定的东西。

我的想法是:公开仓库先把 open-core 做扎实 第一次开源 欢迎大家提出建议 也欢迎大佬批评指教

d420d10cc819dc1257c53d50405051f0

37bf0a94e50cb01aba1ef1e01f282a75

86a1e941358270fbd137c32f2de096a2

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文