在他们的 discord 里会不定期放内测功能的内测码,我用了下还行,对图片风格的一致性保持的不错。 Discord 邀请链接: https://discord.gg/BuTXPHmQub 下面是图文交错的一些案例,最终结果完成度不错。文字有叙事节奏,图片有场景变化,两者配合得挺自然。 注意看——我只给了一句话,SenseNova U1 就自动搭出了完整的故事框架。它选了 4 个关键画面做图文交错生成,每个画面都自动生成了完整的生图指令,包括场景描述、角色设定、画面风格,一口气搞定。
众所周知这个刚发布的文生图模型美学效果很好,多样性也高,但无奈内置审核,道德感很高,普通玩法不能NSFW,那有没有破限的办法的呢? 答案是有的。就是在comfyui里采用KJ的画布构建提示词节点(Ideogram 4 Prompt Builder KJ),当画布上超过3个图框时,模型内置的审核就会大概率失效,框越多失效的概率越大。而且描述人物时不能光说n–ed,最好要加上细节描写,比如n—les , p—c h–r等,这样破限成功率更高。我自己试过了,确实可行,上面画的还行,下面的一言难尽,可能是没怎么训练,等后续社区出LORA吧。 祝各位佬早日破限成功。 PS:不要我问我怎么装这个节点,我也不知道,我是在云平台跑的,名字就不说了。 1 个帖子 - 1 位参与者 阅读完整话题
开源的文生图模型最近有什么进展吗,印象里最好的 flux klein 和 z image,这两个现在哪个生态比较好呢,现在有没有比这两个好的模型 2 个帖子 - 2 位参与者 阅读完整话题
如题,我尝试用claude code去将我的内容转化为图片的方式,用的是通用模型,但是发现生成的很简单,佬友们有没有心得交流,是安装哪些优质的skill吗还是说得去接入AI图像模型才行? 2 个帖子 - 2 位参与者 阅读完整话题
要能支持 API 调用的,根据设定的角色稳定产出图片,求推荐。
要能支持 API 调用的,根据设定的角色稳定产出图片,求推荐。
之前其他佬的贴子涉及推广被删了,搜一下某量子+ai就能找到。 这几天的体感 图片和grok差不多,视频纯抽卡不要写太长的提示词,不一定会遵守,有时候两句话也有可能抽出来毫不相干的东西。然后同一个key连续抽出来可能会是同一个风格,比如上一个是电影风格,下一个提示词发过去可能还是电影风格… 视频效果纯答辩,元素越复杂越越容易出现穿墙、三只手…然后某些人体也是非常恶心,图片那种恶心,拿来yy一下倒可以。然后视频的中文/英文配音也是答辩,基本上不同步而且口吃,也只是听个乐 图生视频不知道怎么都传不上,用gpt5.5几轮都修不明白,算了… 就图个乐吧,没啥限制,跑了几千张图片色图嘎嘎生成(注意不要升男的xx,太恶心了,不知道拿什么训练的),视频的话好像最长18s大概生成三分钟左右。 视频部分为大馒头,不要在公共场合打开 参考视频: https://xgf.nu/ywZ78 压缩包里面三个视频文件(1、2、3) 3 个帖子 - 3 位参与者 阅读完整话题
自建的lobehub, 配置了也无法选到中转的生图模型 是lobehub不支持非官方的文生图功能吗? 4 个帖子 - 2 位参与者 阅读完整话题
哪家文生视频能到0.1元一秒啊。 我看到有个网站,写着sora,但是sora这东西早没了。然后每秒才0.1.啥视频是这样价格? 2 个帖子 - 2 位参与者 阅读完整话题
今天图生图4k完全生成不出来,1k要3分钟以上 文生图更不用说1k都生成不出来 1 个帖子 - 1 位参与者 阅读完整话题
微软近日发布其最新一代文本生成图像模型 MAI-Image-2.5,并在 Arena 的最新文生图排行榜中首发即拿下第三名的位置,显示其在 AI 图像生成领域的整体实力正明显追赶行业领先者。 目前在这一榜单上,OpenAI 的 gpt-image-2 以 1388 分位居第一。 微软表示,MAI-Image-2.5 在多种图像风格上的表现全面提升,能够更好地贴合用户提示生成图像,并在文字渲染与画面细节方面有显著改进。 微软最初于去年推出自研图像生成模型 MAI-Image-1,该模型在 Arena 的 Image Arena 排名中仅位列第 9 名,与当时其他实验室的顶级模型存在明显差距,随后微软将该模型整合到 Bing.com/create 以及 Bing 手机应用中向用户开放。 今年 3 月,微软 AI 团队发布第二代 MAI-Image-2,在自然光表现、肤色还原等方面带来明显提升,并首次闯入 Arena 排行榜前三,仅落后于Google的 gemini-3.1-flash-image-preview 和 OpenAI 的 gpt-image-1.5-high-fidelity,并同步接入 Copilot、Bing Image Creator 和 Microsoft Foundry API,供开发者调用。 在此基础上,新一代 MAI-Image-2.5 进一步强化了模型整体能力。微软介绍称,MAI-Image-2.5 能更精确地理解和执行用户的文字提示,生成的图像在细节和整体结构上更加连贯,且在文字内容的绘制上更加可靠。 该模型的视觉推理能力也有所增强,对物体、光照、比例、场景结构以及空间关系的理解更加准确,有助于生成更符合真实场景和用户预期的画面。 微软特别强调,MAI-Image-2.5 在文字渲染、风格化插画以及商业类图像上的进步最为明显,包括海报、包装打样、品牌创意和产品图等场景,都能产生更高质量的输出。 相比前代模型,新模型生成图像中的文字更加清晰锐利,版式布局更加稳定,品牌视觉元素也更突出、更具整体质感,更契合商业设计和营销应用需求。 微软 AI 负责人 Mustafa Suleyman 在社交平台上表示,MAI-Image-2.5 登上 Arena 文生图排行榜第三名,标志着图像生成质量又迎来一次重要跃迁,并预告在即将到来的 Build 大会上,微软 AI 团队还将带来更多相关更新与发布。 他称,这只是微软在 AI 图像领域发力的又一步,后续还会持续推进模型能力和产品形态的迭代。 目前,MAI-Image-2.5 已通过 Arena 面向所有用户开放试用,用户可以直接在该平台上与其他模型进行对比体验。 按照微软的计划,这一新模型也将在未来两周内陆续登陆 MAI Playground 和 Microsoft Foundry,为普通用户与开发者提供更多样化的生成式图像创作与集成选项。 查看评论
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 一周开源总结 从上周开始开源无限画布,到现在大概过去了一周多的时间,GitHub收获了大概500多star。目前规划的是这个项目可以去接任意的xxx2api,比如chatgpt2api、grok2api、flow2api等项目,作为一个公共的生图客户端,不用每个2api的程序都在去开发一套生图/视频在线调试功能。 本次在上周开源的基础上增加的功能如下: 生图工作台功能 视频创作台功能 后台用户管理(支持Linux.do账号登录)、算力点管理 画布中新增视频生成节点 画布中优化了图像/视频生成的配置面板及一些bug,目前来说体验应该会更好了 开源项目地址: github.com GitHub - basketikun/infinite-canvas: 面向AI创作的开源无限画布工作台,集成 AI... 面向AI创作的开源无限画布工作台,集成 AI 生图、参考图编辑、视频生成、画布编排、对话助手、提示词库和素材管理等功能、兼容OpenAI接口,支持chatgpt2api、grok2api、flow2api、newapi等接入。 下周开源计划 下周开始会继续修chatgpt2api的bug了、chatgpt2api会持续为本项目提供接口、预计下周内会增加: PSD文件生成接口逆向 PPT文件生成接口逆向 深度搜索接口逆向 2k/4k生图bug修复 其中PSD、2k/4k生图会应用在本项目中 新增功能展示 生图工作台 本页面主要是为了照顾不想使用画布,想要简洁生图功能的,以及照顾移动端的用户 视频创作台 本页面主要是为了照顾不想使用画布,想要简洁视频生成功能的,以及照顾移动端的用户 目前视频生成接口使用 OpenAI 兼容的 POST /v1/videos 、 GET /v1/videos/{id} 和 GET /v1/videos/{id}/content 用户&算力点 账号登录&Linux.do登录 算力点变更 系统设置 配置是否允许登录、每个模型消耗的算力点 配置L站登录信息、模型渠道 视频节点 配置面板 视频的配置面板 生图的配置面板 画布整体效果 画布整体的效果展示如下: 提示词中心 提示词这边又增加了几个开源的GitHub仓库爬取,后台增加了定时任务抓取,目前大概有一千多个了 5 个帖子 - 4 位参与者 阅读完整话题
最近 Vibe coding 做了一个文生图网站,这是我第一次完全不看代码、主要靠 AI 完成的项目 主要使用 Codex App ,模型是 gpt-5.5-xhigh 。开发方式基本是和 AI 反复沟通、微调、扣细节。每次改完代码后,通常还会让 AI 再做 2-3 轮 review ,尽量保持代码合理、精简、可维护 不过这个过程其实也挺耗时间的,尤其是反复 review 和改细节 欢迎体验,看看整体 UI 和交互怎么样,AI 味会不会太重 免费使用,签到可以获得 10 张生成额度 访问地址: https://image.sunls.de GitHub: sunls24/scenemint
用的cpa转接出来的imagine2,调用image_generation文生图没有问题,图生图是不是需要额外的skill和工具 7 个帖子 - 4 位参与者 阅读完整话题
从 【Picpi Chat 工艺站】支持聊天和 image2,支持上传图片,文生图,图生图,正式上线! 继续 Picpi Chat 工艺站 服务器资源不足,只能开4线程,人多可能拥挤。 https://chat.picpi.top/ 2.0 更新 添加了图片生成等待动画 添加了图片画廊的支持,和GPT官网对齐。 添加了链接的支持,和GPT官网对齐 添加了搜索引用的支持,和GPT官网对齐。 如果还有其他功能没和官网对齐可以在下面反馈,后面我会考虑加上。 13 个帖子 - 10 位参与者 阅读完整话题
想着额度不用的话就浪费了,想在NAS上部署个应用给老婆文生图用,现在有搭好的CPA和Metapi 1 个帖子 - 1 位参与者 阅读完整话题
其实标题是 文生图提示词 我来试试看什么效果的 gpt-image-2 gemini-3-pro-imge-preview grok-imagine-image-pro 奇怪的是,用gemini-3-pro-imge-preview 再次迭代时 却不给生成了 何意味? 1 个帖子 - 1 位参与者 阅读完整话题
从 【Picpi Chat 工艺站】支持聊天和 image2,支持上传图片,文生图,图生图,正式上线! 继续。 这个聊天站刚搞出来,在聊天的时候总是会在莫名奇妙的地方卡住,我就搞了个卡住就截图+保存HTML之后退出,方便我排查问题,优化代码。 然后我就看到了不可描述的东西。 总之,工艺站是给大家正经使用的,不要用来搞这种东西 11 个帖子 - 8 位参与者 阅读完整话题
2 个帖子 - 2 位参与者 阅读完整话题
无限画布项目地址: https://github.com/basketikun/infinite-canvas 下面是使用说明:目前的主要功能是生图/编辑图、后续会加入视频等玩法 给定一个提示词节点,然后点击生图后出现生图配置 点击生成之后会生成一组图片 对生成的图片继续进行重新组合 提示词库,系统内置了几个开源项目的提示词库,大概总共七百多个,可以同步过来