avatar - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-08 09:44:59+08:00 · tech

快速领取步骤：请访问 https://gravatar.com/注册/登录前往个人资料设置。寻找“免费一年！”的横幅/选项。选择您的自定义域名并完成结账。 6 个帖子 - 6 位参与者阅读完整话题

美团开源 LongCat-Video-Avatar 1.5：数字人视频从“彩排”走向“真舞台”，生成 10 秒视频仅需 1 分钟

IT之家 · 2026-05-22 14:24:25+08:00 · tech

IT之家 5 月 22 日消息，美团技术团队今日正式开源了其数字人视频生成模型 LongCat-Video-Avatar 1.5。官方介绍称，该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现了升级，旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在 1.0 版本的基础上完成全面升级，定位从“开源 SOTA”走向“商业级应用”。据介绍，这一版本在基础体验上进行了强化，能够应对长句、快语速、歌唱等复杂语音输入，使唇部运动更精准平滑，同时面部表情、头部姿态与肢体动作也更为协调。在场景支持方面，借助高质量数据体系，模型可稳定处理真人、动漫、动物等多种主体，并在多人对话场景中自然区分说话者与聆听者。推理部署方面，LongCat-Video-Avatar 1.5 采用 DMD 蒸馏技术，将生成步数从 50 步压缩至 8 步，推理效率提升约 15 倍，生成一段 10 秒视频仅需约 1 分钟。从技术架构来看，1.5 版本主要在三方面实现升级。首先是基础体验的商用化，模型将音频特征提取编码器从 Wav2Vec2 升级为 Whisper-large，凭借更大的参数量和更丰富的多语言先验，能够更细致地捕捉音素变化与发音节奏，从而提升唇形同步与全身时序稳定性，减少长视频中的抖动、跳帧和身份漂移。龙猫团队还构建了一套多阶段数据处理流程，包括离线标注和在线验证，并专门增加了多人数据、静默数据和情绪数据三类增强数据，以应对虚拟人生成的典型难点。此外，通过逐帧级的 GRPO（Group Relative Policy Optimization）偏好对齐，模型针对手部稳定性和动作连续性进行优化，缓解了手部畸变和动作不连贯等问题。在性能评测方面，美团基于 EvalTalker 构建了覆盖新闻、教育、娱乐等场景的综合基准。由 770 名评估者完成的 13,240 条主观评分及 10 名专家的结构化分析显示，在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上，LongCat-Video-Avatar 1.5 的雷达图面积处于领先水平。用户偏好对比中，该模型相比 Kling Avatar 2.0 胜率为 65.9%，相比 OmniHuman-1.5 胜率为 61.1%，相比 HeyGen 胜率为 54.3%。在多人场景中，其得分大幅领先 InfiniteTalk；主体变形问题率仅为 23.1%，跳帧问题率低至 0.8%，均优于对比模型。美团方面表示，数字人视频生成正在从展示效果走向真实使用，希望此次开源能成为一个可验证、可改进、可共建的技术基座，让开发者和创作者基于此探索更多应用边界。开源链接： Github： https://github.com/meituan-longcat/LongCat-Video HuggingFace： https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5 Tech Report： https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf Project Page： https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/ Modelscope： https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary

[分享创造] [开源] OpenTalking 进展同步： Avatar 资产预热、本地语音链路和实时数字人体验继续优化

v2ex · 2026-05-21 17:38:53+08:00 · tech

前两天在 V2EX 分享过一次 OpenTalking ，当时主要介绍的是实时数字人完整链路：LLM 、STT 、TTS 、数字人视频驱动、WebRTC 播放、字幕同步和用户打断。这两天我们又继续往前推进了一版，重点不是单独换某个模型，而是把实时数字人里比较影响体验的工程链路再补一补。项目地址： https://github.com/datascale-ai/opentalking 这次主要做了几件事： 1. Avatar 资产管理和缓存预热 2. 新增了几个内置的 Avartar 资之前做数字人 demo 的时候，一个比较麻烦的地方是：不同后端对 Avatar 资产的要求不一样。比如 Wav2Lip 需要预处理帧和嘴型 metadata ，QuickTalk 会有自己的 template 和 face cache ，FlashTalk 又是另外一套实时推理链路。如果每个模型都各管各的，后面加角色、切模型、做 WebUI 展示都会很乱。所以这两天主要在整理 Avatar 资产结构，让前端选择一个角色之后，后端能更明确地知道：这个 Avatar 支持哪些模型；哪些缓存已经准备好；哪些需要提前预热；缺失时应该怎么提示或自动准备。目标是让用户不是“点一下角色，然后等模型慢慢现算”，而是尽量把可以提前做的事情前置掉。 QuickTalk / Wav2Lip 的链路继续对齐上次我们已经支持了 wav2lip 、musetalk 、flashtalk 、quicktalk 等几种模式。这次继续补的是 QuickTalk 和 Wav2Lip 的资产处理一致性，尤其是预览、缓存、模板视频和 runtime 之间的关系。简单说，就是希望同一个 Avatar 在 WebUI 里看起来是一个角色，而不是用户需要理解背后每个模型各自的目录结构。对开发者来说，这样后面新增 Avatar 或者新增模型后端也会更清楚一点。本地 ASR / TTS 方向开始整理之前为了让大家更容易跑起来，默认链路里很多语音能力会走云 API 。这两天也开始把本地语音链路补起来，比如本地 SenseVoiceSmall 做 ASR ，本地 CosyVoice 做 TTS ，并且在前端里标注清楚哪些是本地模型，哪些是云端 API 。这个方向还在继续调，但目标很明确：OpenTalking 不能只做一个云 API 拼起来的 demo ，也要能支持更本地化、更可控的部署方式。端到端 benchmark 工具实时数字人最怕只看单点效果。单独看 TTS 很快，或者单独看 talking head 模型能跑，不代表完整体验就顺。所以这次也加了端到端 benchmark 的方向，用来更系统地看：语音输入到识别； LLM 流式回复； TTS 首包；视频首帧；字幕和播放状态；打断和下一轮恢复。后面优化低延迟体验的时候，不能只凭感觉说“快了”，需要有一套能复现的指标。目前项目还比较早期，但这几天的方向基本是：从“能跑一个 demo”，继续往“更容易部署、更容易加角色、更容易评估体验”走。后面还会继续做：更低的首帧延迟；更清晰的 Avatar 资产库；更多本地模型组合； QuickTalk / Wav2Lip / FlashTalk 等后端的体验对齐；面向电商、主播、客服、培训等场景的案例整理。欢迎大家继续试用、提 issue 、拍砖。也想听听大家对实时数字人最在意的是哪块：低延迟、本地部署、口型效果、音色复刻、Avatar 制作，还是完整产品链路？

[分享发现] v 站的 ugly-avatar 系列丑头像使用数量是真高啊，建议站长大人直接改为官方头像系统

v2ex · 2026-05-17 22:26:26+08:00 · tech

v 站的 ugly-avatar 系列丑头像使用数量是真高啊，建议站长大人直接改为官方头像系统

vibecoding 了一个随机头像生成器

V2EX - 技术 · 2026-05-17 18:07:50+08:00 · tech

大家好，这是我做的一个头像生成小工具： fan-avatar 。它基于开源头像库 DiceBear 开发，内置 30 种不同头像风格，支持随机生成、头像美化、历史记录、下载保存、自定义背景等功能。还在纠结头像用什么？打开它点一下，就能随机生成一个独一无二的头像。工具里包含卡通人物、像素风、极简图标、机器人、抽象图案等多种画风，每种风格都有大量随机组合。生成结果不满意，可以继续随机；觉得差一点意思，也可以使用美化功能，对头像进行简单调整。喜欢的头像可以直接下载，支持透明背景和自定义底色，适合用在社交账号、论坛头像、游戏资料、临时昵称头像等场景。简单来说，它不是那种复杂的 AI 头像生成器，而是一个轻量、快速、有点上头的随机头像小玩具。没事点两下，可能就刷到一个挺顺眼的头像。

/tag/avatar