xAI 宣布在开发者平台开放图生视频模型 Grok Imagine Video 1.5 Preview。模型在发布后登顶 Arena.ai 视频竞技场图生视频排行榜,在初步评测中以 1473 的 Elo 评分位列第一,超越了字节跳动的 dreamina-seedance-2.0。
Grok Imagine 1.5 具备一步生成音画同步视频的能力。以往的图生视频工具通常需要进行后期配音,而 Grok Imagine 1.5 在单次推理中即可同步输出视频与匹配的音频,包括人物对话、背景音乐和环境音效。用户只需输入一张起始图片并配合自然语言提示词,就能控制镜头的推拉、场景节奏与声音设计。
在技术架构上,Grok Imagine 1.5 基于 xAI 自研的 Aurora 引擎构建。不同于主流图生视频模型采用的扩散 Transformer 架构,Aurora 引擎是一个自回归混合专家(MoE)网络,在训练时将文本、图像、视频和音频视为统一的 Token 流进行联合预测。Grok Imagine 1.5 支持生成最长 15 秒、分辨率最高 720p 的视频。
15 个帖子 - 9 位参与者