xAI 宣布在开发者平台开放图生视频模型 Grok Imagine Video 1.5 Preview。模型在发布后登顶 Arena.ai 视频竞技场图生视频排行榜,在初步评测中以 1473 的 Elo 评分位列第一,超越了字节跳动的 dreamina-seedance-2.0。 Grok Imagine 1.5 具备一步生成音画同步视频的能力。以往的图生视频工具通常需要进行后期配音,而 Grok Imagine 1.5 在单次推理中即可同步输出视频与匹配的音频,包括人物对话、背景音乐和环境音效。用户只需输入一张起始图片并配合自然语言提示词,就能控制镜头的推拉、场景节奏与声音设计。 在技术架构上,Grok Imagine 1.5 基于 xAI 自研的 Aurora 引擎构建。不同于主流图生视频模型采用的扩散 Transformer 架构,Aurora 引擎是一个自回归混合专家(MoE)网络,在训练时将文本、图像、视频和音频视为统一的 Token 流进行联合预测。Grok Imagine 1.5 支持生成最长 15 秒、分辨率最高 720p 的视频。 15 个帖子 - 9 位参与者 阅读完整话题
直接看图 不过仅仅是图生视频这个单项超过了 seedance2 不知道外国老马有没有学中国老马,偷偷刷榜 其实现在都大差不差,图生视频,前几个模型都不错 xAI 网页版上可以用了,可以跑一下 更多 Grok Vdieo 1.5 和其他模型 sd2 omni 对比参考这里
在无人在意的角落里,Grok Imagine Video 1.5 Preview 发布了 前沿快讯 刚看到 xAI 上线了 Grok Imagine Video 1.5 Preview(720p) 。 更有意思的是,它已经在 Image-to-Video Arena 上超越了 Seedance 2.0,登顶第一。 [image] [image] 无人在意,我看看新模型是不是真的流口水 佬们需要生视频的话我免费发给你们 3 个帖子 - 2 位参与者 阅读完整话题
刚看到 xAI 上线了 Grok Imagine Video 1.5 Preview(720p) 。 更有意思的是,它已经在 Image-to-Video Arena 上超越了 Seedance 2.0,登顶第一。 8 个帖子 - 8 位参与者 阅读完整话题
用的cpa转接出来的imagine2,调用image_generation文生图没有问题,图生图是不是需要额外的skill和工具 7 个帖子 - 4 位参与者 阅读完整话题
想问一下各位大佬,gpt20xpro 图像imagine2生成额度多少呀 1 个帖子 - 1 位参与者 阅读完整话题
提示词 (点击了解更多详细信息) 2 个帖子 - 2 位参与者 阅读完整话题
展示的可用模型有 grok-imagine-image grok-imagine-video grok-4.20-0309-reasoning grok-imagine-image-quality grok-3-mini-fast grok-4.3 grok-3-mini grok-4.20-0309-non-reasoning grok-4.20-multi-agent-0309 没有显示额度,不知道用量多少 3 个帖子 - 3 位参与者 阅读完整话题
目前了解了seedance2.0pro和grok的imagine-video,这些模型买会员和中转站哪个性价比更高点,还有其他可用的视频模型吗? 1 个帖子 - 1 位参与者 阅读完整话题
直接动手测试了一下 没有玩明白,有没有试过的佬 1 个帖子 - 1 位参与者 阅读完整话题
起因 我自己日常在 grok 上用 Grok Imagine 出图、出短视频,主要是给 YouTube Shorts 做素材和给电商的 SKU 出测试图。 用着用着发现一个很尴尬的事:grok 的网页只能一条 prompt 一条 prompt 地提交,出图要等,出视频更要等, 而且每生成完一个还得手动右键「另存为」,文件名还都是 (1).mp4 、 (2).mp4 这种鬼东西。 我一晚上能写 80 条 prompt ,但真要把它们全跑完、再整理好,得我守着电脑两三个钟头。 这种活,机器干显然比人干合适。 思路 xAI 那个官方的 Grok Tasks 只能做「定时让 Grok 帮你跑一次问答然后邮件给你」, 完全不解决我这种「批量生成媒体文件」的场景。 所以路线只有一个:写个 Chrome 扩展,注入 content script ,接管 grok 的 UI ,自己点自己等自己存。 后来这个扩展我起名叫 Grok Automation ,下面把几个有点意思的实现细节说一下。 实现里几个有点意思的点 DOM 变化用 MutationObserver 兜底 grok 的前端是 SPA ,按钮、loading 状态、生成完成的标记都是异步出现的。 一开始用 setTimeout 轮询,跑 50 条以上就开始飘。后来全部改成 MutationObserver 监听特定容器,配合一个状态机,稳定性才上来。 智能延迟,不是固定 sleep 一开始我设的是「每条 prompt 之间 sleep 10 秒」,结果有些 prompt 5 秒就出完了在干等, 有些跑 30 秒还没好就被下一条挤掉。后来改成「等当前生成结束 + 一个小抖动」, 既不被限流也不浪费时间。 自动下载和命名 chrome.downloads API 可以指定 filename ,所以我把每个 batch 命名成项目名, 图片 / 视频 / metadata 全部塞到 Downloads/<project>/ 下,给后期剪辑同事是一个文件夹直接拖。 Concat 模式 Grok 的视频单条最长就那么几秒,我自己想要长一点的连续镜头, 就做了个「把前一段视频的最后一帧作为下一段的 frame 输入」的链式生成。 这个其实是 Grok Imagine 自己 frame-to-video 模式的一个自然组合,但手动操作太痛苦。 失败不中断队列 早期版本一个 prompt 触发 Grok 内部错误,整个队列就崩了。 现在是单条失败标记一下,继续往下跑,最后给一个 failed 列表,单独重跑就行。 目前覆盖的场景 五种 Grok Imagine 的输入模态全都做了批量: Text-to-Video Frame-to-Video Ingredients-to-Video (多张图合成一段视频,做角色一致性比较好用) Text-to-Image (支持 16:9 / 9:16 / 1:1 / 2:3 / 3:2 五个比例) Image-to-Image 一些坑 / 限制 网页改版 :grok 改 DOM 我就得跟着改 selector ,这是无法避免的副作用, 上次他们改 video player 我加班改了一晚上。 限流 :免费账号一天能跑的量是有上限的,扩展并不能绕过这个, 只能在限流之内把节奏调到最快。 只跑 grok :x 里嵌入的那个 Grok 不在范围内, 那边 DOM 完全是另一套,没必要重复造。 状态 Chrome Web Store 审核中。 完全在本地浏览器跑,prompt 和生成的图 / 视频都不离开你这台机器,没有 server 端收集。 求拍砖 主要想问几件事: 你们在做批量生成的时候,最痛的环节是什么?是 prompt 管理、还是结果筛选、还是后期重命名? 下一步我想加 prompt 模板和变量替换,但不确定是不是真痛点。 有没有人遇到过 grok 改版导致自动化挂掉的情况,你们一般怎么做兼容性兜底? 现在 UI 是「贴一列 prompt 然后按 Start 」,有没有更优雅的交互范式可以参考? 落地页和扩展入口在这里,欢迎吐槽(包括落地页文案,我自己看好几遍都看吐了): 👉 https://grok-automation.com/chrome-extension/ 谢谢老哥们。
新模式 9 个帖子 - 8 位参与者 阅读完整话题
https://modelscope-resouces.oss-cn-zhangjiakou.aliyuncs.com/avatar%2F4162c45f-9a45-4740-9941-ade7047ab0cd.mp4 现在说绕口令都很溜了,马斯克确实更新勤快 5 个帖子 - 4 位参与者 阅读完整话题
9 个帖子 - 5 位参与者 阅读完整话题