WWW.YOUINFO.SITE
标签聚合 avatar

/tag/avatar

IT之家 · 2026-05-22 14:24:25+08:00 · tech

IT之家 5 月 22 日消息,美团技术团队今日正式开源了其数字人视频生成模型 LongCat-Video-Avatar 1.5。 官方介绍称,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现了升级,旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在 1.0 版本的基础上完成全面升级,定位从“开源 SOTA”走向“商业级应用”。 据介绍,这一版本在基础体验上进行了强化,能够应对长句、快语速、歌唱等复杂语音输入,使唇部运动更精准平滑,同时面部表情、头部姿态与肢体动作也更为协调。 在场景支持方面,借助高质量数据体系,模型可稳定处理真人、动漫、动物等多种主体,并在多人对话场景中自然区分说话者与聆听者。 推理部署方面,LongCat-Video-Avatar 1.5 采用 DMD 蒸馏技术,将生成步数从 50 步压缩至 8 步,推理效率提升约 15 倍,生成一段 10 秒视频仅需约 1 分钟。 从技术架构来看,1.5 版本主要在三方面实现升级。首先是基础体验的商用化,模型将音频特征提取编码器从 Wav2Vec2 升级为 Whisper-large,凭借更大的参数量和更丰富的多语言先验,能够更细致地捕捉音素变化与发音节奏,从而提升唇形同步与全身时序稳定性,减少长视频中的抖动、跳帧和身份漂移。 龙猫团队还构建了一套多阶段数据处理流程,包括离线标注和在线验证,并专门增加了多人数据、静默数据和情绪数据三类增强数据,以应对虚拟人生成的典型难点。 此外,通过逐帧级的 GRPO(Group Relative Policy Optimization)偏好对齐,模型针对手部稳定性和动作连续性进行优化,缓解了手部畸变和动作不连贯等问题。 在性能评测方面,美团基于 EvalTalker 构建了覆盖新闻、教育、娱乐等场景的综合基准。由 770 名评估者完成的 13,240 条主观评分及 10 名专家的结构化分析显示,在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,LongCat-Video-Avatar 1.5 的雷达图面积处于领先水平。 用户偏好对比中,该模型相比 Kling Avatar 2.0 胜率为 65.9%,相比 OmniHuman-1.5 胜率为 61.1%,相比 HeyGen 胜率为 54.3%。 在多人场景中,其得分大幅领先 InfiniteTalk;主体变形问题率仅为 23.1%,跳帧问题率低至 0.8%,均优于对比模型。 美团方面表示,数字人视频生成正在从展示效果走向真实使用,希望此次开源能成为一个可验证、可改进、可共建的技术基座,让开发者和创作者基于此探索更多应用边界。 开源链接: Github: https://github.com/meituan-longcat/LongCat-Video HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5 Tech Report: https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf Project Page: https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/ Modelscope: https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary

v2ex · 2026-05-21 17:38:53+08:00 · tech

前两天在 V2EX 分享过一次 OpenTalking ,当时主要介绍的是实时数字人完整链路:LLM 、STT 、TTS 、数字人视频驱动、WebRTC 播放、字幕同步和用户打断。 这两天我们又继续往前推进了一版,重点不是单独换某个模型,而是把实时数字人里比较影响体验的工程链路再补一补。 项目地址: https://github.com/datascale-ai/opentalking 这次主要做了几件事: 1. Avatar 资产管理和缓存预热 2. 新增了几个内置的 Avartar 资 之前做数字人 demo 的时候,一个比较麻烦的地方是:不同后端对 Avatar 资产的要求不一样。 比如 Wav2Lip 需要预处理帧和嘴型 metadata ,QuickTalk 会有自己的 template 和 face cache ,FlashTalk 又是另外一套实时推理链路。 如果每个模型都各管各的,后面加角色、切模型、做 WebUI 展示都会很乱。 所以这两天主要在整理 Avatar 资产结构,让前端选择一个角色之后,后端能更明确地知道: 这个 Avatar 支持哪些模型; 哪些缓存已经准备好; 哪些需要提前预热; 缺失时应该怎么提示或自动准备。 目标是让用户不是“点一下角色,然后等模型慢慢现算”,而是尽量把可以提前做的事情前置掉。 QuickTalk / Wav2Lip 的链路继续对齐 上次我们已经支持了 wav2lip 、musetalk 、flashtalk 、quicktalk 等几种模式。 这次继续补的是 QuickTalk 和 Wav2Lip 的资产处理一致性,尤其是预览、缓存、模板视频和 runtime 之间的关系。 简单说,就是希望同一个 Avatar 在 WebUI 里看起来是一个角色,而不是用户需要理解背后每个模型各自的目录结构。 对开发者来说,这样后面新增 Avatar 或者新增模型后端也会更清楚一点。 本地 ASR / TTS 方向开始整理 之前为了让大家更容易跑起来,默认链路里很多语音能力会走云 API 。 这两天也开始把本地语音链路补起来,比如本地 SenseVoiceSmall 做 ASR ,本地 CosyVoice 做 TTS ,并且在前端里标注清楚哪些是本地模型,哪些是云端 API 。 这个方向还在继续调,但目标很明确:OpenTalking 不能只做一个云 API 拼起来的 demo ,也要能支持更本地化、更可控的部署方式。 端到端 benchmark 工具 实时数字人最怕只看单点效果。 单独看 TTS 很快,或者单独看 talking head 模型能跑,不代表完整体验就顺。 所以这次也加了端到端 benchmark 的方向,用来更系统地看: 语音输入到识别; LLM 流式回复; TTS 首包; 视频首帧; 字幕和播放状态; 打断和下一轮恢复。 后面优化低延迟体验的时候,不能只凭感觉说“快了”,需要有一套能复现的指标。 目前项目还比较早期,但这几天的方向基本是:从“能跑一个 demo”,继续往“更容易部署、更容易加角色、更容易评估体验”走。 后面还会继续做: 更低的首帧延迟; 更清晰的 Avatar 资产库; 更多本地模型组合; QuickTalk / Wav2Lip / FlashTalk 等后端的体验对齐; 面向电商、主播、客服、培训等场景的案例整理。 欢迎大家继续试用、提 issue 、拍砖。 也想听听大家对实时数字人最在意的是哪块:低延迟、本地部署、口型效果、音色复刻、Avatar 制作,还是完整产品链路?

V2EX - 技术 · 2026-05-17 18:07:50+08:00 · tech

大家好,这是我做的一个头像生成小工具: fan-avatar 。 它基于开源头像库 DiceBear 开发,内置 30 种不同头像风格 ,支持随机生成、头像美化、历史记录、下载保存、自定义背景等功能。 还在纠结头像用什么?打开它点一下,就能随机生成一个独一无二的头像。 工具里包含卡通人物、像素风、极简图标、机器人、抽象图案等多种画风,每种风格都有大量随机组合。生成结果不满意,可以继续随机;觉得差一点意思,也可以使用美化功能,对头像进行简单调整。 喜欢的头像可以直接下载,支持透明背景和自定义底色,适合用在社交账号、论坛头像、游戏资料、临时昵称头像等场景。 简单来说,它不是那种复杂的 AI 头像生成器,而是一个轻量、快速、有点上头的随机头像小玩具。没事点两下,可能就刷到一个挺顺眼的头像。

V2EX - 技术 · 2026-05-17 18:07:50+08:00 · tech

大家好,这是我做的一个头像生成小工具: fan-avatar 。 它基于开源头像库 DiceBear 开发,内置 30 种不同头像风格 ,支持随机生成、头像美化、历史记录、下载保存、自定义背景等功能。 还在纠结头像用什么?打开它点一下,就能随机生成一个独一无二的头像。 工具里包含卡通人物、像素风、极简图标、机器人、抽象图案等多种画风,每种风格都有大量随机组合。生成结果不满意,可以继续随机;觉得差一点意思,也可以使用美化功能,对头像进行简单调整。 喜欢的头像可以直接下载,支持透明背景和自定义底色,适合用在社交账号、论坛头像、游戏资料、临时昵称头像等场景。 简单来说,它不是那种复杂的 AI 头像生成器,而是一个轻量、快速、有点上头的随机头像小玩具。没事点两下,可能就刷到一个挺顺眼的头像。

V2EX - 技术 · 2026-05-17 17:06:47+08:00 · tech

大家好,这是我做的一个头像生成小工具: fan-avatar 。 它基于开源头像库 DiceBear 开发,内置 30 种不同头像风格 ,支持随机生成、头像美化、历史记录、下载保存、自定义背景等功能。 还在纠结头像用什么?打开它点一下,就能随机生成一个独一无二的头像。 工具里包含卡通人物、像素风、极简图标、机器人、抽象图案等多种画风,每种风格都有大量随机组合。生成结果不满意,可以继续随机;觉得差一点意思,也可以使用美化功能,对头像进行简单调整。 喜欢的头像可以直接下载,支持透明背景和自定义底色,适合用在社交账号、论坛头像、游戏资料、临时昵称头像等场景。 简单来说,它不是那种复杂的 AI 头像生成器,而是一个轻量、快速、有点上头的随机头像小玩具。没事点两下,可能就刷到一个挺顺眼的头像。

V2EX - 技术 · 2026-05-17 13:59:42+08:00 · tech

大家好,这是我做的一个头像生成小工具: fan-avatar 。 它基于开源头像库 DiceBear 开发,内置 30 种不同头像风格 ,支持随机生成、头像美化、历史记录、下载保存、自定义背景等功能。 还在纠结头像用什么?打开它点一下,就能随机生成一个独一无二的头像。 工具里包含卡通人物、像素风、极简图标、机器人、抽象图案等多种画风,每种风格都有大量随机组合。生成结果不满意,可以继续随机;觉得差一点意思,也可以使用美化功能,对头像进行简单调整。 喜欢的头像可以直接下载,支持透明背景和自定义底色,适合用在社交账号、论坛头像、游戏资料、临时昵称头像等场景。 简单来说,它不是那种复杂的 AI 头像生成器,而是一个轻量、快速、有点上头的随机头像小玩具。没事点两下,可能就刷到一个挺顺眼的头像。