跑了一下 demo 试了一下改图一致性,感觉免费的还要什么自行车! Demo:https://agnes-images.lz-t.top/; TEXT_MODEL = 'agnes-2.0-flash'; IMAGE_MODEL = 'agnes-image-2.1-flash';
因为gpt-image-2太好用了,所以最近用这个生图和改图比较多,但是试了很多中转站发现改图的时候超过两分钟就会提示524或者504。 我是部署的gpt_image_playground这个项目来自用的,最开始是尝试把playground站点和请求api分为两个域名,api的走cf灰云直连,用api域名去请求上游,后来发现上游是非官方的中转站的话,大部分也是套了一层cf有两分钟限制。 后来搞一个plus账号配到cpa里面之后,想到如果playground容器走容器间请求去访问cpa就可以了,所以现在的方案就是playground站点请求灰云api域名再发到cpa,请求的url配置成 http://cli-proxy-api:8317 ,目前来看请求基本都是正常 以上都是自己摸索的,如果有佬有更好的方案可以一起交流一下 1 个帖子 - 1 位参与者 阅读完整话题
chatgpt计划,目前主要用来改图和文生图的,弄不了几张就提示限额 大家有遇到这种情况吗 1 个帖子 - 1 位参与者 阅读完整话题
运气不错,手上几个Free号都是每天25张的额度,狂蹬了几天后给我的感觉就是生图没得说,但是改图,尤其是改一些面积比较小细节非常困难,需要多次抽卡,大概率会出现改遮罩区外的内容,甚至几乎没做修改原图返回的情况。不确定是不是Free账号分配了降智的版本,或者还有个猜测是Free图分辨率低,对于一些小的细节可能模型直接就看不到了。我尝试过先让模型给要改的细部生成一张放大的特写,然后在特写图上改就很顺利了,但是一旦回到原图又是乱改或者不改,甚至我把改好的特写图传上去当参考图都没什么用,佬友们有这种体会吗? 14 个帖子 - 8 位参与者 阅读完整话题
根据 gen-images — 给 Claude Code 用的 Skill :调用 gpt-image2 图片生成 / 改图 - #6,来自 harrylarry 大佬的claude+cpa的技能改写成codex+sub2api 效果如上,目前还有点小bug,生成图片之后在codex app中使用不生成画框展示,没有我之前用原生的样子了 之前原生是 插件直接导入ccswtich用zip导入即可使用,选择codex激活 gen-images.zip (25.8 KB) 2 个帖子 - 2 位参与者 阅读完整话题
佬友们有知道为什么gpt没办法精准识别修改图片的指令呢呢?明明ai指令很明确了,但是改了很多次还是改不对,有点弱智,pro模型也是如此。 2 个帖子 - 2 位参与者 阅读完整话题
我在 Claude Code 调用gpt-image2,封装整理成了一个可复用的 skill,名字叫 gen-images 。 它的目标很简单: 在 Claude Code 里直接用自然语言生成图片 支持文生图和改图 支持自动触发,也支持手动用 /gen-images ... 自动读取当前用户 Claude Code 配置里的 API Base URL 和 Token 自动把生成结果保存到本地目录 如果你也在用 CLIProxyAPI 反代Codex到 Claude Code ,这套 skill 可以直接复用。 一、这个 skill 能做什么 1. 文生图 可以直接这样用: /gen-images 生成一张透明背景的猫咪头像,1024x1024,png 或者自然语言触发: 使用 gpt-image-2 生成一张透明背景的猫咪头像 2. 改图 / 编辑图片 例如: /gen-images 把 ./input.png 改成水彩风,保留主体,输出 webp 支持的图片来源: 本地文件路径 图片 URL data URL 3. 自动补字段 这个 skill 会自动从自然语言里提取常见参数,比如: 尺寸 size 质量 quality 背景 background 输出格式 output_format 生成张数 n 如果缺少关键字段: 文生图缺提示词,会追问 prompt 改图缺图片来源,会提示你提供: 本地路径 图片 URL / data URL 二、使用前提 在安装和使用这个 skill 之前,请先确认以下条件满足: 1. CLIProxyAPI 版本要求 CLIProxyAPI 版本必须 ≥ v6.9.34 这是前提条件。低版本不保证支持当前这套图片接口能力和参数。 2. Python 环境 本 skill 通过 Python 脚本真正发起图片接口请求,因此本机需要可用的 Python 环境。 建议确认至少满足: py --version 如果这条命令能正常输出版本号,就说明基本满足运行条件。 3. Claude Code 配置中已设置 API 信息 本 skill 会自动从 Claude Code 当前用户配置中读取: env.ANTHROPIC_BASE_URL env.ANTHROPIC_AUTH_TOKEN 读取位置: ~/.claude/settings.json 也就是说,你需要先让 Claude Code 当前环境本身已经配置好 Base URL 和 Token。 4. 后端已支持图片接口 你的反代链路需要支持以下接口: POST /v1/images/generations POST /v1/images/edits 三、支持的 size 规则 目前这版 gen-images 中,size 规则整理成了下面这些: 1024x1024 ( 1:1 ) 1024x1536 ( 3:4 ) 1536x1024 ( 4:3 ) 2048x2048 ( 1:1 ) 3840x2160 ( 16:9 ) 2160x3840 ( 9:16 ) auto 也就是说,下面这些写法都能识别: 1:1 3:4 4:3 16:9 9:16 1024x1024 1024x1536 1536x1024 2048x2048 3840x2160 2160x3840 auto 其中: 2160x3840 3840x2160 在我当前这套 CLIProxyAPI + gpt-image-2 链路里已经做过实测,可以成功生成, 但是提示词不能过于复杂,否则会报错:stream disconnected before completion 需要注意的是,这两个值不等同于 OpenAI 官方公开文档中列出的标准 size 枚举,它们更准确地说是: 当前链路下实测可用的兼容尺寸 所以如果你换了不同的代理版本、不同后端或者不同模型,建议自己再做一次最小对照测试。 四、安装方法 把 gen-images 整个目录复制到你的 Claude Code 用户级 skills 目录: ~/.claude/skills/ 最终结构应为: ~/.claude/skills/gen-images/SKILL.md ~/.claude/skills/gen-images/scripts/gen_images.py ~/.claude/skills/gen-images/references/fields.md Windows 下通常对应: C:\Users\你的用户名\.claude\skills\gen-images\ 复制完成后: 重启 Claude Code 或执行插件 / skill 重载 然后直接测试 /gen-images 五、使用示例 示例 1:文生图 /gen-images 生成一张透明背景的猫咪头像,1024x1024,png 示例 2:竖版高分辨率图 /gen-images 生成一张赛博朋克风格的机甲少女全身像,9:16,png,高清 示例 3:改图 /gen-images 把 ./input.png 改成水彩风,保留主体,输出 webp 示例 4:信息图 / 图鉴类 /gen-images 根据{明代女子图鉴}自动生成一张博物馆图鉴式中文拆解信息图,9:16,png,高清 六、输出行为 默认情况下,生成结果会保存到当前工作目录下: ./gen-images/ 成功后,Claude 会返回类似这样的结果: 图片已生成, 图片路径: C:\Users\xxx\gen-images\20260424-003204-01.png 实际使用的关键参数: model=gpt-image-2, size=2160x3840, quality=high, output_format=png, n=1 失败时则会返回简短错误原因,例如: 生成失败: 缺少 prompt 七、这个 skill 的特点 我自己比较看重的点有这些: 1. 不需要手动拼接口请求 不用自己写 curl、也不用每次都手写 JSON。 2. 支持自然语言参数提取 比如: 高清 → quality=high 透明背景 → background=transparent 9:16 → size=2160x3840 png/webp/jpg → output_format 3. 同时支持自动触发和 slash 调用 既可以直接说: 使用 gpt-image-2 生成图片 也可以手动输入: /gen-images ... 4. 自动读取当前 Claude Code 配置 不需要在 skill 里额外写死 API Base URL 和 Token。 八、适合哪些人用 这套 skill 比较适合: 已经在用 Claude Code 已经通过 CLIProxyAPI 接好了图片模型 想把"生图 / 改图"变成日常工作流的一部分 不想每次手动拼图片接口请求 九、注意事项 本 skill 依赖 Python 环境 本 skill 默认从 ~/.claude/settings.json 读取 API 配置 你的 CLIProxyAPI 版本必须 ≥ v6.9.34 2160x3840 / 3840x2160 是当前链路实测可用,不代表所有后端都一致支持 如果复杂长提示词在超大尺寸下偶发失败,优先做最小提示词对照测试,判断是尺寸问题还是后端稳定性问题 十、如果你也想装同款 skill 你只需要: 把 gen-images 文件夹复制到 ~/.claude/skills/ 确认 CLIProxyAPI >= v6.9.34 确认本机可运行 py --version 确认 ~/.claude/settings.json 里已经配置好: env.ANTHROPIC_BASE_URL env.ANTHROPIC_AUTH_TOKEN 然后就可以直接开始用。 如果你后面还想扩展,我觉得还可以继续往下做: 加更多自然语言参数映射 加白名单校验 加更完整的错误提示 加 README / 仓库打包 / 发布版说明 十一、结语 如果你本身就在用 Claude Code + CLIProxyAPI,这个 gen-images skill 其实很适合拿来当一个可复用的图片工作流入口。 它不是单纯的脚本,而是把: 参数识别 交互补全 接口调用 文件落地 结果回传 整合成了 Claude Code 里可直接使用的一套体验。 如果论坛里有人需要,我也建议你们在自己环境里先跑一次最小提示词测试,确认当前代理链路对高分辨率尺寸的支持情况,再正式投入日常使用。 附带 gen-images.zip (16.2 KB) 3 个帖子 - 3 位参与者 阅读完整话题
这不是各种中转站开始陆续上gpt-image-2了嘛,最近想玩玩文生图了,然后我就又要面对本地LLM客户端的一堆问题了。 CherryStudio我早就不用了,臃肿到离谱,但是你别说,它的文生图功能确实强大,不是说多好用,而是至少能用; Kelivo的UI太…朴素了,我感觉作者今年大概率是没啥机会优化UI了,如果他觉得有必要优化的话,但重点其实还是文生图的问题,接入的中转站能够拉取下来模型,能够进行聊天对话,但是一开始文生图就报错,为啥呢?不知道啊,报错日志都没几个字,丢给claude都解决不了问题; Aetherlink的问题也差不多,能拉取到模型,能chat,但是一使用文生图就失败,为啥呢?光看日志,丢给claude一通分析也不知道,最后claude觉得大概率是中转站跟Aetherlink客户端之间的过程出现了问题,让我去提issue,但是Aetherlink项目的issue里只有一个,还是去年提的,没人回答; AionUI是启动太慢,500M的RAM占用有点不知道用来干啥的,反正我用不上,哦,AionUI在接入中转站的时候会强制要求测试模型可用性,但是许多中转站的image模型不知道是不是不支持这种测试,大多数都是返回测试失败的结果,然后在AionUI中我连image模型都用不了,因为在对话时不支持选用测试失败或未经可用性测试的模型; 顺带一提,rikkahub的移动端(好像也只有移动端)玩文生图也失败了,也不知道为啥,就挺绝望的; 难道只剩下ComfyUI了吗?可我讨厌ComfyUI,首先简单的工作流就五六个节点,用LLM客户端就能解决的事情何苦打开ComfyUI,复杂的工作流节点密密麻麻的看着都恶心,我不如直接写代码得了。值得一提的是ComfyUI官方也推出了使用第三方api key的节点,只不过需要先登录然后购买什么套餐:也就是说,我要在本地部署ComfyUI的客户端,自己去买中转站的文生图服务,最后得跟你报备(必须登录),每一次文生图都要给你交保护费(每调用一次第三方key都要消耗某种有限额度)?这种官方简直逆天,是我之前无法想象的,我见过最过分也最普遍的官方态度也就是不提供第三方api key使用方式,ComfyUI官方这种逆天玩法我还是第一次见。当然,社区也不遑多让,每一个工作流都是用来引流的,甚至是需要登录第三方平台的。再加上工作流这种方案,简单的需求可以避开它,复杂的需求不如直接写代码,它可能也就适合所谓的"中等复杂度"了,至于什么是中等,那就见仁见智了。 写到最后,人麻了,难道我就只剩下烧钱烧时间vibe coding一个文生图工具了吗?我开始怀念以前玩炼丹时lora的WEB UI了,那种可视化修改配置的方式就非常适合玩简单的文生图和图生图。虽然好像也没什么太复杂的玩法了,现在文生图模型太强大了------banana,image-2------你只要给提示词就好了,生成过程本身就是黑箱,足够优秀的提示词就能产出期望足够高的抽卡结果。 9 个帖子 - 4 位参与者 阅读完整话题
Meta的muse spark用WhatsApp直接无障碍对话,不存在VPN大考的问题! 生图改图等功能一应俱全,质量嘛,一言难尽…… 7 个帖子 - 1 位参与者 阅读完整话题
不仅是生图能力强大,而且改图完全可以一比一复刻,简直可以去接单制作封面了! 5r一单感觉可以碾压那些做封面的了!!! 13 个帖子 - 11 位参与者 阅读完整话题