xAI发布Grok Imagine 1.5，首登视频竞技场第一且支持音画同步生成

发布时间：2026-06-05T16:04:50+08:00 阅读：0 分类：tech

xAI 宣布在开发者平台开放图生视频模型 Grok Imagine Video 1.5 Preview。模型在发布后登顶 Arena.ai 视频竞技场图生视频排行榜，在初步评测中以 1473 的 Elo 评分位列第一，超越了字节跳动的 dreamina-seedance-2.0。

Grok Imagine 1.5 具备一步生成音画同步视频的能力。以往的图生视频工具通常需要进行后期配音，而 Grok Imagine 1.5 在单次推理中即可同步输出视频与匹配的音频，包括人物对话、背景音乐和环境音效。用户只需输入一张起始图片并配合自然语言提示词，就能控制镜头的推拉、场景节奏与声音设计。

在技术架构上，Grok Imagine 1.5 基于 xAI 自研的 Aurora 引擎构建。不同于主流图生视频模型采用的扩散 Transformer 架构，Aurora 引擎是一个自回归混合专家（MoE）网络，在训练时将文本、图像、视频和音频视为统一的 Token 流进行联合预测。Grok Imagine 1.5 支持生成最长 15 秒、分辨率最高 720p 的视频。

15 个帖子 - 9 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

延伸阅读