https://github.com/woodgear/refresh Refresh Refresh 是一个自托管的个人账号 feed API:用你自己的浏览器登录态,把 X/Twitter 、知乎、B 站推给你的内容采集成结构化资源,再通过网页、RSS 和 JSON API 消费。 它不是多用户托管服务,也不内置第三方账号凭据。登录态、抓取到的内容、媒体缓存和日志都属于本机运行态数据,不提交到仓库。 它做什么 通过 Chrome DevTools Protocol 操控一个独立的 Chrome profile 。 使用你自己的登录态抓取平台推荐流: X/Twitter home timeline GraphQL 响应 知乎 topstory / moments API B 站动态流 / 热门 API 每次抓取保存为不可变的 RefreshWindow 档案。 将内容归一化为 Message / Author / Account 等 k8s 风格资源。 提供 React 阅读界面:按源过滤、未读追踪、登录恢复、手动刷新。 提供 RSS: /rss/<source>.xml 和 /rss/all.xml 。 图片会本地化到 data/media ,方便 RSS 阅读器稳定回源。 隐私边界 仓库只放应用代码。以下运行态路径已被 git 忽略: profiles/ :Chrome profile 、cookies 、登录态 data/ :抓取内容、媒体、overlay 、调度器状态、日志 .env / .env.* :本地部署配置 公开仓库前不要把运行态目录、截图、导出的 cookie 、本地环境变量文件或真实数据样例提交进来。 本地运行 依赖: Bun pnpm Chrome / Chromium jq 、 xmllint (用于 verify.sh ) 启动: pnpm install pnpm start 默认地址: 后端 API: http://localhost:3001 前端网页: http://localhost:5173 首次使用时打开 http://localhost:5173 。如果账号未登录,页面会提示登录;登录过程发生在受管 Chrome profile (默认 profiles/main )里。 Chrome 启动与登录态 Refresh 不依赖外部浏览器自动化服务。后端需要访问平台时,会先检查本机 CDP: http://127.0.0.1:${RADAR_CDP_PORT}/json/version 如果 CDP 不可用,后端会自动拉起一个有窗口的 Chrome / Chromium: CDP 只监听本机 127.0.0.1 。 默认 CDP 端口是 19223 ,可用 RADAR_CDP_PORT 修改。 默认 profile 是 profiles/main ,可用 RADAR_PROFILE_DIR 修改。 Chrome 路径会自动探测;找不到时用 RADAR_CHROME_BIN 指定。 启动参数包含 --remote-debugging-port 和 --user-data-dir ,因此登录态会持久化在 profile 目录里。 登录、扫码和抓取都使用这个同一个 profile 。不要把 profiles/ 提交到仓库。 Linux 服务器部署时需要有可用的图形桌面会话,因为平台登录通常需要可见窗口。 scripts/ start-k2-tmux.sh 会在 tmux 进程里补齐常见桌面环境变量: XDG_RUNTIME_DIR WAYLAND_DISPLAY DISPLAY DBUS_SESSION_BUS_ADDRESS 如果检测到 WAYLAND_DISPLAY ,后端启动 Chrome 时会默认追加 --ozone-platform=wayland 。需要强制指定时可以设置: export RADAR_CHROME_OZONE_PLATFORM=wayland 验证 bunx tsc --noEmit ./verify.sh verify.sh 使用隔离的 mock 数据,不依赖真实平台登录态。 部署 Refresh 运行两个进程: 后端: bun server/index.ts 前端/Vite 反代: bunx vite 公网部署时,把公网地址放进环境变量,然后用反向代理或 tunnel 暴露 Vite 端口。 示例: export REFRESH_PUBLIC_URL="https://refresh.example.com" export SERVER_PORT=13001 export WEB_PORT=13002 scripts/start-k2-tmux.sh scripts/ start-k2-tmux.sh 会: 在 tmux session 中启动后端和前端; 用 REFRESH_PUBLIC_URL 设置 RADAR_BASE_URL ,保证 RSS 里的媒体地址能回源; 从 REFRESH_PUBLIC_URL 推导 Vite allowed host ; 将进程日志写入 data/logs/ 。 公网代理或 tunnel 指向: http://127.0.0.1:${WEB_PORT} 后端通过 Vite proxy 访问,因此通常只需要暴露 Web 端口。 常用环境变量 变量 用途 默认 PORT 后端端口 3001 RADAR_DATA_DIR 数据根目录 ./data RADAR_BASE_URL RSS 媒体绝对地址 http://localhost:$PORT RADAR_CDP_PORT 受管 Chrome CDP 端口 19223 RADAR_PROFILE_DIR 受管 Chrome profile 目录 ./profiles/main RADAR_CHROME_BIN Chrome 可执行文件 自动探测 RADAR_CHROME_OZONE_PLATFORM Chrome Ozone 平台,例如 wayland 检测到 WAYLAND_DISPLAY 时为 wayland RADAR_PROXY 媒体下载代理 http://127.0.0.1:7890 REFRESH_API_TARGET Vite 反代的后端地址 http://localhost:3001 REFRESH_ALLOWED_HOSTS Vite 允许访问的 host ,逗号分隔 未设置 REFRESH_PUBLIC_URL 公网部署 URL ,供 scripts/ start-k2-tmux.sh 使用 脚本必填 文档 文件 内容 AGENTS.md 当前架构、约定、API 速查、常见任务操作手册 docs/design.md 原始设计蓝图和设计取舍 docs/progress.md 实施日志、踩坑记录和后续候选项
https://github.com/woodgear/refresh Refresh Refresh 是一个自托管的个人账号 feed API:用你自己的浏览器登录态,把 X/Twitter 、知乎、B 站推给你的内容采集成结构化资源,再通过网页、RSS 和 JSON API 消费。 它不是多用户托管服务,也不内置第三方账号凭据。登录态、抓取到的内容、媒体缓存和日志都属于本机运行态数据,不提交到仓库。 它做什么 通过 Chrome DevTools Protocol 操控一个独立的 Chrome profile 。 使用你自己的登录态抓取平台推荐流: X/Twitter home timeline GraphQL 响应 知乎 topstory / moments API B 站动态流 / 热门 API 每次抓取保存为不可变的 RefreshWindow 档案。 将内容归一化为 Message / Author / Account 等 k8s 风格资源。 提供 React 阅读界面:按源过滤、未读追踪、登录恢复、手动刷新。 提供 RSS: /rss/<source>.xml 和 /rss/all.xml 。 图片会本地化到 data/media ,方便 RSS 阅读器稳定回源。 隐私边界 仓库只放应用代码。以下运行态路径已被 git 忽略: profiles/ :Chrome profile 、cookies 、登录态 data/ :抓取内容、媒体、overlay 、调度器状态、日志 .env / .env.* :本地部署配置 公开仓库前不要把运行态目录、截图、导出的 cookie 、本地环境变量文件或真实数据样例提交进来。 本地运行 依赖: Bun pnpm Chrome / Chromium jq 、 xmllint (用于 verify.sh ) 启动: pnpm install pnpm start 默认地址: 后端 API: http://localhost:3001 前端网页: http://localhost:5173 首次使用时打开 http://localhost:5173 。如果账号未登录,页面会提示登录;登录过程发生在受管 Chrome profile (默认 profiles/main )里。 Chrome 启动与登录态 Refresh 不依赖外部浏览器自动化服务。后端需要访问平台时,会先检查本机 CDP: http://127.0.0.1:${RADAR_CDP_PORT}/json/version 如果 CDP 不可用,后端会自动拉起一个有窗口的 Chrome / Chromium: CDP 只监听本机 127.0.0.1 。 默认 CDP 端口是 19223 ,可用 RADAR_CDP_PORT 修改。 默认 profile 是 profiles/main ,可用 RADAR_PROFILE_DIR 修改。 Chrome 路径会自动探测;找不到时用 RADAR_CHROME_BIN 指定。 启动参数包含 --remote-debugging-port 和 --user-data-dir ,因此登录态会持久化在 profile 目录里。 登录、扫码和抓取都使用这个同一个 profile 。不要把 profiles/ 提交到仓库。 Linux 服务器部署时需要有可用的图形桌面会话,因为平台登录通常需要可见窗口。 scripts/ start-k2-tmux.sh 会在 tmux 进程里补齐常见桌面环境变量: XDG_RUNTIME_DIR WAYLAND_DISPLAY DISPLAY DBUS_SESSION_BUS_ADDRESS 如果检测到 WAYLAND_DISPLAY ,后端启动 Chrome 时会默认追加 --ozone-platform=wayland 。需要强制指定时可以设置: export RADAR_CHROME_OZONE_PLATFORM=wayland 验证 bunx tsc --noEmit ./verify.sh verify.sh 使用隔离的 mock 数据,不依赖真实平台登录态。 部署 Refresh 运行两个进程: 后端: bun server/index.ts 前端/Vite 反代: bunx vite 公网部署时,把公网地址放进环境变量,然后用反向代理或 tunnel 暴露 Vite 端口。 示例: export REFRESH_PUBLIC_URL="https://refresh.example.com" export SERVER_PORT=13001 export WEB_PORT=13002 scripts/start-k2-tmux.sh scripts/ start-k2-tmux.sh 会: 在 tmux session 中启动后端和前端; 用 REFRESH_PUBLIC_URL 设置 RADAR_BASE_URL ,保证 RSS 里的媒体地址能回源; 从 REFRESH_PUBLIC_URL 推导 Vite allowed host ; 将进程日志写入 data/logs/ 。 公网代理或 tunnel 指向: http://127.0.0.1:${WEB_PORT} 后端通过 Vite proxy 访问,因此通常只需要暴露 Web 端口。 常用环境变量 变量 用途 默认 PORT 后端端口 3001 RADAR_DATA_DIR 数据根目录 ./data RADAR_BASE_URL RSS 媒体绝对地址 http://localhost:$PORT RADAR_CDP_PORT 受管 Chrome CDP 端口 19223 RADAR_PROFILE_DIR 受管 Chrome profile 目录 ./profiles/main RADAR_CHROME_BIN Chrome 可执行文件 自动探测 RADAR_CHROME_OZONE_PLATFORM Chrome Ozone 平台,例如 wayland 检测到 WAYLAND_DISPLAY 时为 wayland RADAR_PROXY 媒体下载代理 http://127.0.0.1:7890 REFRESH_API_TARGET Vite 反代的后端地址 http://localhost:3001 REFRESH_ALLOWED_HOSTS Vite 允许访问的 host ,逗号分隔 未设置 REFRESH_PUBLIC_URL 公网部署 URL ,供 scripts/ start-k2-tmux.sh 使用 脚本必填 文档 文件 内容 AGENTS.md 当前架构、约定、API 速查、常见任务操作手册 docs/design.md 原始设计蓝图和设计取舍 docs/progress.md 实施日志、踩坑记录和后续候选项
https://github.com/woodgear/refresh Refresh Refresh 是一个自托管的个人账号 feed API:用你自己的浏览器登录态,把 X/Twitter 、知乎、B 站推给你的内容采集成结构化资源,再通过网页、RSS 和 JSON API 消费。 它不是多用户托管服务,也不内置第三方账号凭据。登录态、抓取到的内容、媒体缓存和日志都属于本机运行态数据,不提交到仓库。 它做什么 通过 Chrome DevTools Protocol 操控一个独立的 Chrome profile 。 使用你自己的登录态抓取平台推荐流: X/Twitter home timeline GraphQL 响应 知乎 topstory / moments API B 站动态流 / 热门 API 每次抓取保存为不可变的 RefreshWindow 档案。 将内容归一化为 Message / Author / Account 等 k8s 风格资源。 提供 React 阅读界面:按源过滤、未读追踪、登录恢复、手动刷新。 提供 RSS: /rss/<source>.xml 和 /rss/all.xml 。 图片会本地化到 data/media ,方便 RSS 阅读器稳定回源。 隐私边界 仓库只放应用代码。以下运行态路径已被 git 忽略: profiles/ :Chrome profile 、cookies 、登录态 data/ :抓取内容、媒体、overlay 、调度器状态、日志 .env / .env.* :本地部署配置 公开仓库前不要把运行态目录、截图、导出的 cookie 、本地环境变量文件或真实数据样例提交进来。 本地运行 依赖: Bun pnpm Chrome / Chromium jq 、 xmllint (用于 verify.sh ) 启动: pnpm install pnpm start 默认地址: 后端 API: http://localhost:3001 前端网页: http://localhost:5173 首次使用时打开 http://localhost:5173 。如果账号未登录,页面会提示登录;登录过程发生在受管 Chrome profile (默认 profiles/main )里。 Chrome 启动与登录态 Refresh 不依赖外部浏览器自动化服务。后端需要访问平台时,会先检查本机 CDP: http://127.0.0.1:${RADAR_CDP_PORT}/json/version 如果 CDP 不可用,后端会自动拉起一个有窗口的 Chrome / Chromium: CDP 只监听本机 127.0.0.1 。 默认 CDP 端口是 19223 ,可用 RADAR_CDP_PORT 修改。 默认 profile 是 profiles/main ,可用 RADAR_PROFILE_DIR 修改。 Chrome 路径会自动探测;找不到时用 RADAR_CHROME_BIN 指定。 启动参数包含 --remote-debugging-port 和 --user-data-dir ,因此登录态会持久化在 profile 目录里。 登录、扫码和抓取都使用这个同一个 profile 。不要把 profiles/ 提交到仓库。 Linux 服务器部署时需要有可用的图形桌面会话,因为平台登录通常需要可见窗口。 scripts/ start-k2-tmux.sh 会在 tmux 进程里补齐常见桌面环境变量: XDG_RUNTIME_DIR WAYLAND_DISPLAY DISPLAY DBUS_SESSION_BUS_ADDRESS 如果检测到 WAYLAND_DISPLAY ,后端启动 Chrome 时会默认追加 --ozone-platform=wayland 。需要强制指定时可以设置: export RADAR_CHROME_OZONE_PLATFORM=wayland 验证 bunx tsc --noEmit ./verify.sh verify.sh 使用隔离的 mock 数据,不依赖真实平台登录态。 部署 Refresh 运行两个进程: 后端: bun server/index.ts 前端/Vite 反代: bunx vite 公网部署时,把公网地址放进环境变量,然后用反向代理或 tunnel 暴露 Vite 端口。 示例: export REFRESH_PUBLIC_URL="https://refresh.example.com" export SERVER_PORT=13001 export WEB_PORT=13002 scripts/start-k2-tmux.sh scripts/ start-k2-tmux.sh 会: 在 tmux session 中启动后端和前端; 用 REFRESH_PUBLIC_URL 设置 RADAR_BASE_URL ,保证 RSS 里的媒体地址能回源; 从 REFRESH_PUBLIC_URL 推导 Vite allowed host ; 将进程日志写入 data/logs/ 。 公网代理或 tunnel 指向: http://127.0.0.1:${WEB_PORT} 后端通过 Vite proxy 访问,因此通常只需要暴露 Web 端口。 常用环境变量 变量 用途 默认 PORT 后端端口 3001 RADAR_DATA_DIR 数据根目录 ./data RADAR_BASE_URL RSS 媒体绝对地址 http://localhost:$PORT RADAR_CDP_PORT 受管 Chrome CDP 端口 19223 RADAR_PROFILE_DIR 受管 Chrome profile 目录 ./profiles/main RADAR_CHROME_BIN Chrome 可执行文件 自动探测 RADAR_CHROME_OZONE_PLATFORM Chrome Ozone 平台,例如 wayland 检测到 WAYLAND_DISPLAY 时为 wayland RADAR_PROXY 媒体下载代理 http://127.0.0.1:7890 REFRESH_API_TARGET Vite 反代的后端地址 http://localhost:3001 REFRESH_ALLOWED_HOSTS Vite 允许访问的 host ,逗号分隔 未设置 REFRESH_PUBLIC_URL 公网部署 URL ,供 scripts/ start-k2-tmux.sh 使用 脚本必填 文档 文件 内容 AGENTS.md 当前架构、约定、API 速查、常见任务操作手册 docs/design.md 原始设计蓝图和设计取舍 docs/progress.md 实施日志、踩坑记录和后续候选项
我先来,知乎闪退
我先来,知乎闪退
自从有人说 b 站年轻人多,官媒就全去 b 站了; 自从有人说知乎可以引导舆论,知乎就全是水军了; 自从有人说小红书商业价值高,小红书就全是广告了; 现在小红书全是暗搓搓的广告。
自从有人说 b 站年轻人多,官媒就全去 b 站了; 自从有人说知乎可以引导舆论,知乎就全是水军了; 自从有人说小红书商业价值高,小红书就全是广告了; 现在小红书全是暗搓搓的广告。
IT之家 6 月 3 日消息,知乎今日发布 2026 财年(2026 年 1 月~2026 年 12 月)第一财季(2026 年 1 月~2026 年 3 月)报告: 营业总收入 : 6.52 亿元,同比下降 10.70% 毛利 : 3.88 亿元,同比下降 13.92% 毛利率 : 59.6%,同比下降 2.20 个百分点 归母净利润 : -850.40 万元,同比亏损收窄 15.75% 基本每股收益 : -0.04 元人民币 稀释每股收益 : -0.04 元人民币 资产负债率 : 25.19% AI 解读 本次知乎 2026 财年第一财季财报营收 6.52 亿元,低于市场预期的 7.3 亿元,净利润亏损收窄符合非公认会计准则净利润大幅增长的预期。 财报亮点 核心运营效率提升,总营运开支同比下降 10.4%,研发开支同比下降 22.4%,推动亏损持续收窄;非公认会计准则经调整净利润达到 1720 万元,同比增长 147.2%,较上一季度实现扭亏为盈。 毛利率环比回升至 59.6%,盈利质量持续提升;平均月订阅会员达到 1310 万人,用户结构持续优化。 截至报告期末,现金及现金等价物、定期存款、受限资金及短期投资合计达到 44.90 亿元,流动性保持充裕。 未来展望 知乎表示将继续专注于提升经营盈利能力,稳步推进 AI 相关的商业化探索,持续释放真人社区在 AI 时代的独特价值;同时将继续通过提升运营效率和坚持审慎资本配置推动高质量增长,包括股份回购,聚焦实现长期股东价值最大化。 相关阅读: 《 滴滴 2026 财年第一财季营业总收入 587.43 亿元,同比增长 10.29% 》 风险提示: 本文内容由 AI 自动分析生成,仅供参考,不代表IT之家观点。如有出入请以证监会指定上市公司信息披露平台为准。本文内容不构成投资建议,如有投资者据此操作,风险自担,IT之家对此不承担任何责任。
省流版: 关于评分与实际体验 模型的扣分 不完全 体现实际编程体验,因此榜单按 实际交互体验 对模型进行分档: 档位 定义 A 几乎不犯错,仅出现微小的 UI/交互类问题 B 大概率会错,但描述错误后可在 ≤2 轮 内修复 C 大概率会错,需更多轮交互,但模型能 自主推进修复 ,无需人工辅助 D 必须由人工提供大量 log、视觉描述、协助操作等才能修复 F 知识或方法论不足,即便有人帮助也无法完成任务 同档位中,若仅少数轮次出现问题、大部分情况表现良好,升半档,以 B+ 、 C+ 表示。 通关机制 :A 评级视作该模型在对应题目上通关,新版本默认跳过已通关题目。例如 Opus 4.8 跳过了 C 和 D 题。 完整榜单: LLM Benchmark Dashboard 完整评测内容: 大语言模型-逻辑能力横评 26-05 月榜 (Opus/Qwen/Gemini) - 知乎 1 个帖子 - 1 位参与者 阅读完整话题
淘宝进去后一个 shab 关不掉的动画 知乎启动的弹窗起码可以自动跳过暂且不谈,离谱的是切换页面还会出现一个应用内部的摇一摇弹窗,可去他妈的吧 到底是哪个司马的东西想出来的?赶紧看望看望你父母 (知乎已经卸载了,淘宝切换到国外就没这个 shab 动画了,洋人还是过得好啊,就这些国产毒瘤一堆广告)
淘宝进去后一个 shab 关不掉的动画 知乎启动的弹窗起码可以自动跳过暂且不谈,离谱的是切换页面还会出现一个应用内部的摇一摇弹窗,可去他妈的吧 到底是哪个司马的东西想出来的?赶紧看望看望你父母 (知乎已经卸载了,淘宝切换到国外就没这个 shab 动画了,洋人还是过得好啊,就这些国产毒瘤一堆广告)
淘宝进去后一个 shab 关不掉的动画 知乎启动的弹窗起码可以自动跳过暂且不谈,离谱的是切换页面还会出现一个应用内部的摇一摇弹窗,可去他妈的吧 到底是哪个司马的东西想出来的?赶紧看望看望你父母 (知乎已经卸载了,淘宝切换到国外就没这个 shab 动画了,洋人还是过得好啊,就这些国产毒瘤一堆广告)
淘宝进去后一个 shab 关不掉的动画 知乎启动的弹窗起码可以自动跳过暂且不谈,离谱的是切换页面还会出现一个应用内部的摇一摇弹窗,可去他妈的吧 到底是哪个司马的东西想出来的?赶紧看望看望你父母 (知乎已经卸载了,淘宝切换到国外就没这个 shab 动画了,洋人还是过得好啊,就这些国产毒瘤一堆广告)
淘宝进去后一个 shab 关不掉的动画 知乎启动的弹窗起码可以自动跳过暂且不谈,离谱的是切换页面还会出现一个应用内部的摇一摇弹窗,可去他妈的吧 到底是哪个司马的东西想出来的?赶紧看望看望你父母 (知乎已经卸载了,淘宝切换到国外就没这个 shab 动画了,洋人还是过得好啊,就这些国产毒瘤一堆广告)
淘宝进去后一个 shab 关不掉的动画 知乎启动的弹窗起码可以自动跳过暂且不谈,离谱的是切换页面还会出现一个应用内部的摇一摇弹窗,可去他妈的吧 到底是哪个司马的东西想出来的?赶紧看望看望你父母 (知乎已经卸载了,淘宝切换到国外就没这个 shab 动画了,洋人还是过得好啊,就这些国产毒瘤一堆广告)
最近有个小进展,项目相关内容被知乎官方推荐了一下,感觉挺意外也挺开心,所以来 V 站 纪念一下哈哈!!最近也在积极使用 windows 来尝试部署。欢迎大家多多支持体验~ 可以去知乎看看被 pick 的帖子: https://www.zhihu.com/pin/2042970331149596175?native=1&scene=share&utm_psn=2043470668075888834 项目 GitHub (已经 830+ stars 了 感谢大家支持): https://github.com/datascale-ai/opentalking 实机演示: https://www.bilibili.com/video/BV1u5GR6vE8b/?vd_source=4820076c616e58ceb357c528a571ff11 目前在 3050(windows), 3090(linux),4090(linux), ascend 910B 上面都做了测试,实测性能数据: https://datascale-ai.github.io/opentalking/reference/benchmark/#_12 这个项目主要想做的是:让普通开发者也能比较容易地本地部署一个实时对话数字人。不是单纯做“嘴动一下”的 Demo ,而是把实时数字人的完整链路尽量跑通,包括: * ASR / TTS / LLM / 数字人视频生成 * WebUI 交互 * 本地部署 * 低延迟实时对话 * MuseTalk / FlashTalk 等不同方案的接入和对比 目前项目还在持续优化中,最近也在做一些部署体验和推理效果方面的改进,比如 Windows 用户更方便地一键启动、本地显卡部署、不同数字人模型的效果对比等等。 我自己做这个项目的初衷其实很简单:现在数字人平台很多,但大部分都是闭源 SaaS ,开发者想真正理解里面的链路、自己改模型、自己接 LLM / TTS / ASR ,门槛还是挺高的。所以我想把这套东西做成一个更开放、更适合开发者学习和二次开发的项目。 知乎官方推荐这件事对我来说算是一个小鼓励,也说明大家对“开源实时数字人”这个方向还是有兴趣的。 欢迎大家体验、提 issue 、给建议。如果觉得这个方向有意思,也希望可以顺手点个 Star 支持一下,后面我会继续把部署教程、模型接入、实时链路优化这些内容补齐。 也想问问 V2EX 的各位: 大家觉得实时数字人开源项目,最应该优先优化哪块? 1. 本地部署体验 2. 数字人生成效果 3. 实时延迟 4. TTS / 声音克隆 5. WebUI 易用性 6. Windows 一键启动 欢迎拍砖。
最近有个小进展,项目相关内容被知乎官方推荐了一下,感觉挺意外也挺开心,所以来 V 站 纪念一下哈哈!!最近也在积极使用 windows 来尝试部署。欢迎大家多多支持体验~ 可以去知乎看看被 pick 的帖子: https://www.zhihu.com/pin/2042970331149596175?native=1&scene=share&utm_psn=2043470668075888834 项目 GitHub (已经 830+ stars 了 感谢大家支持): https://github.com/datascale-ai/opentalking 实机演示: https://www.bilibili.com/video/BV1u5GR6vE8b/?vd_source=4820076c616e58ceb357c528a571ff11 目前在 3050(windows), 3090(linux),4090(linux), ascend 910B 上面都做了测试,实测性能数据: https://datascale-ai.github.io/opentalking/reference/benchmark/#_12 这个项目主要想做的是:让普通开发者也能比较容易地本地部署一个实时对话数字人。不是单纯做“嘴动一下”的 Demo ,而是把实时数字人的完整链路尽量跑通,包括: * ASR / TTS / LLM / 数字人视频生成 * WebUI 交互 * 本地部署 * 低延迟实时对话 * MuseTalk / FlashTalk 等不同方案的接入和对比 目前项目还在持续优化中,最近也在做一些部署体验和推理效果方面的改进,比如 Windows 用户更方便地一键启动、本地显卡部署、不同数字人模型的效果对比等等。 我自己做这个项目的初衷其实很简单:现在数字人平台很多,但大部分都是闭源 SaaS ,开发者想真正理解里面的链路、自己改模型、自己接 LLM / TTS / ASR ,门槛还是挺高的。所以我想把这套东西做成一个更开放、更适合开发者学习和二次开发的项目。 知乎官方推荐这件事对我来说算是一个小鼓励,也说明大家对“开源实时数字人”这个方向还是有兴趣的。 欢迎大家体验、提 issue 、给建议。如果觉得这个方向有意思,也希望可以顺手点个 Star 支持一下,后面我会继续把部署教程、模型接入、实时链路优化这些内容补齐。 也想问问 V2EX 的各位: 大家觉得实时数字人开源项目,最应该优先优化哪块? 1. 本地部署体验 2. 数字人生成效果 3. 实时延迟 4. TTS / 声音克隆 5. WebUI 易用性 6. Windows 一键启动 欢迎拍砖。
最近有个小进展,项目相关内容被知乎官方推荐了一下,感觉挺意外也挺开心,所以来 V 站 纪念一下哈哈!!最近也在积极使用 windows 来尝试部署。欢迎大家多多支持体验~ 可以去知乎看看被 pick 的帖子: https://www.zhihu.com/pin/2042970331149596175?native=1&scene=share&utm_psn=2043470668075888834 项目 GitHub (已经 830+ stars 了 感谢大家支持): https://github.com/datascale-ai/opentalking 实机演示: https://www.bilibili.com/video/BV1u5GR6vE8b/?vd_source=4820076c616e58ceb357c528a571ff11 目前在 3050(windows), 3090(linux),4090(linux), ascend 910B 上面都做了测试,实测性能数据: https://datascale-ai.github.io/opentalking/reference/benchmark/#_12 这个项目主要想做的是:让普通开发者也能比较容易地本地部署一个实时对话数字人。不是单纯做“嘴动一下”的 Demo ,而是把实时数字人的完整链路尽量跑通,包括: * ASR / TTS / LLM / 数字人视频生成 * WebUI 交互 * 本地部署 * 低延迟实时对话 * MuseTalk / FlashTalk 等不同方案的接入和对比 目前项目还在持续优化中,最近也在做一些部署体验和推理效果方面的改进,比如 Windows 用户更方便地一键启动、本地显卡部署、不同数字人模型的效果对比等等。 我自己做这个项目的初衷其实很简单:现在数字人平台很多,但大部分都是闭源 SaaS ,开发者想真正理解里面的链路、自己改模型、自己接 LLM / TTS / ASR ,门槛还是挺高的。所以我想把这套东西做成一个更开放、更适合开发者学习和二次开发的项目。 知乎官方推荐这件事对我来说算是一个小鼓励,也说明大家对“开源实时数字人”这个方向还是有兴趣的。 欢迎大家体验、提 issue 、给建议。如果觉得这个方向有意思,也希望可以顺手点个 Star 支持一下,后面我会继续把部署教程、模型接入、实时链路优化这些内容补齐。 也想问问 V2EX 的各位: 大家觉得实时数字人开源项目,最应该优先优化哪块? 1. 本地部署体验 2. 数字人生成效果 3. 实时延迟 4. TTS / 声音克隆 5. WebUI 易用性 6. Windows 一键启动 欢迎拍砖。
最近有个小进展,项目相关内容被知乎官方推荐了一下,感觉挺意外也挺开心,所以来 V 站 纪念一下哈哈!!最近也在积极使用 windows 来尝试部署。欢迎大家多多支持体验~ 可以去知乎看看被 pick 的帖子: https://www.zhihu.com/pin/2042970331149596175?native=1&scene=share&utm_psn=2043470668075888834 项目 GitHub (已经 830+ stars 了 感谢大家支持): https://github.com/datascale-ai/opentalking 实机演示: https://www.bilibili.com/video/BV1u5GR6vE8b/?vd_source=4820076c616e58ceb357c528a571ff11 目前在 3050(windows), 3090(linux),4090(linux), ascend 910B 上面都做了测试,实测性能数据: https://datascale-ai.github.io/opentalking/reference/benchmark/#_12 这个项目主要想做的是:让普通开发者也能比较容易地本地部署一个实时对话数字人。不是单纯做“嘴动一下”的 Demo ,而是把实时数字人的完整链路尽量跑通,包括: * ASR / TTS / LLM / 数字人视频生成 * WebUI 交互 * 本地部署 * 低延迟实时对话 * MuseTalk / FlashTalk 等不同方案的接入和对比 目前项目还在持续优化中,最近也在做一些部署体验和推理效果方面的改进,比如 Windows 用户更方便地一键启动、本地显卡部署、不同数字人模型的效果对比等等。 我自己做这个项目的初衷其实很简单:现在数字人平台很多,但大部分都是闭源 SaaS ,开发者想真正理解里面的链路、自己改模型、自己接 LLM / TTS / ASR ,门槛还是挺高的。所以我想把这套东西做成一个更开放、更适合开发者学习和二次开发的项目。 知乎官方推荐这件事对我来说算是一个小鼓励,也说明大家对“开源实时数字人”这个方向还是有兴趣的。 欢迎大家体验、提 issue 、给建议。如果觉得这个方向有意思,也希望可以顺手点个 Star 支持一下,后面我会继续把部署教程、模型接入、实时链路优化这些内容补齐。 也想问问 V2EX 的各位: 大家觉得实时数字人开源项目,最应该优先优化哪块? 1. 本地部署体验 2. 数字人生成效果 3. 实时延迟 4. TTS / 声音克隆 5. WebUI 易用性 6. Windows 一键启动 欢迎拍砖。
https://zhuanlan.zhihu.com/p/2040071270549516795 1 个帖子 - 1 位参与者 阅读完整话题