WWW.YOUINFO.SITE
标签聚合 商汤

/tag/商汤

v2ex · 2026-06-11 12:25:02+08:00 · tech

在他们的 discord 里会不定期放内测功能的内测码,我用了下还行,对图片风格的一致性保持的不错。 Discord 邀请链接: https://discord.gg/BuTXPHmQub 下面是图文交错的一些案例,最终结果完成度不错。文字有叙事节奏,图片有场景变化,两者配合得挺自然。 注意看——我只给了一句话,SenseNova U1 就自动搭出了完整的故事框架。它选了 4 个关键画面做图文交错生成,每个画面都自动生成了完整的生图指令,包括场景描述、角色设定、画面风格,一口气搞定。

LinuxDo 最新话题 · 2026-06-08 06:42:43+08:00 · tech

sub2api 添加openai官方的codex, 已开启’允许 /v1/messages 调度’ claude code是正常的。 然后sub2api 添加了2个商汤的 https://token.sensenova.cn/v1 sub2api里发hi回复正常的。 claude code env使用 "env": { "ANTHROPIC_BASE_URL": "https://--.com", "ANTHROPIC_AUTH_TOKEN": "sk----", "ANTHROPIC_DEFAULT_HAIKU_MODEL": "claude-opus-4-8[1m]", "ANTHROPIC_DEFAULT_SONNET_MODEL": "claude-opus-4-8[1m]", "ANTHROPIC_DEFAULT_OPUS_MODEL": "claude-opus-4-8[1m]", "CLAUDE_CODE_SUBAGENT_MODEL": "claude-opus-4-8", "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1", "CLAUDE_CODE_ATTRIBUTION_HEADER": "0" }, claude code 调用sub2api 端点会提示: ● There’s an issue with the selected model (claude-opus-4-7[1m]). It may not exist or you may not have access to it. Run /model to pick a different model. 有大佬遇到过这问题吗 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-01 00:25:50+08:00 · tech

首先感谢一下商汤日日新的免费 deepseek-v4-flash 模型。 看了下官方文档,"AI 工具接入"章节写了 Cursor、Cline、Claude Code 这些工具的接法,Claude Code 还专门提了用 cc-switch 接入。但翻遍文档,没看到 Codex 的接入说明。 按理说 cc-switch 3.16.0 加了 Codex Chat Completions Routing,能把 Codex 的 Responses 协议转成 Chat Completions,理论上 SenseNova 这种 OpenAI 兼容端点是能跑的,于是自己折腾了一下: cc-switch 里加自定义 Codex provider Base URL: https://token.sensenova.cn/v1 模型:deepseek-v4-flash 开"需要本地路由接管" 结果踩了俩坑: 提问之后就报错了:如下 {“error”:{“message”:“invalid tool_call_id”,“type”:“invalid_request_error”,“code”:“3”}}。 Codex 客户端模型选择列表是空的,/model 命令选不出来。 有没有大佬已经把 SenseNova 接进 Codex 跑通了?是 cc-switch 的配置姿势不对,还是这条路目前压根走不通要等修? 7 个帖子 - 7 位参与者 阅读完整话题

v2ex · 2026-05-29 01:03:02+08:00 · tech

上周我在 WaytoAGI 的共学直播里看到了商汤最新的 skills 包,体验了一下,感觉挺不错的,这里分享给佬友们哈 先放 repo: https://github.com/OpenSenseNova/SenseNova-Skills 这个 skills 包,一共有五个场景 1. 图片&可视化 sn-infographic:接入的是他们的 SenseNova U1 的开源模型,尤其是信息图(具体名字是 SenseNova U1-8B-MoT-Infographic )可以把一个很粗糙的想法,直接做成信息图,先理解内容,再决定布局和视觉风格。这个模型我专门测过,效果和 Nano Banana 和 Image2 差不了多少 2. PPT 生成 打工人神器,里面两个小 skills sn-ppt-standard:做的是可编辑的商务 PPT sn-ppt-creative:做的是偏视觉化、整页设计感很强的 Presentation 有时候你需要的是后续还能编辑修改的 deck ;有时候你只是想快速做一个视觉冲击力强的展示页。 这俩其实根本不是一个任务。 3. 数据分析 Excel 工作流这块,比我预期里“工程化”很多。 它会根据表格行数自动选择处理方案: - 小文件:直接读取 - 中型文件:Parquet 缓存 - 大文件:流式分析 对于 10 万行以上的 Excel ,它不会直接 pd.read_excel() 全读进内存,而是改成 Streaming + Parquet 。 我有一部分业务是跨境电商,我会用这个 skills 帮我选品,大概流程是先用 1688 的插件拉到店铺销量的数据,这些数据我比较关心: 1. 哪些产品是真正卖得好的:是爆款驱动还是铺货型,如果这个店家的产品过于依赖某 1-2 个品,说明他的创新能力可能不够 2. 这个供应商的产品的价格区间都在哪:我会选择一个符合我成本范围的供应商来。因为这个价格段的产品通常是他们的优势产品。 3. 周度,月度的销量数据,如果他的销量波动太大,则可能是产能有问题,这时候如果我找他下单,则很可能出现延迟交货的情况把数据丢给 Agent ,能自动匹配到这个 skills ,然后给我分析出来我关心的点,我再决定要不要和这个工厂聊 3. Deep research 这个 skills 自定义了一套工作流,帮你深度调研某个领域,这个还没深度实验过,大概的流程是这样的: request.md -> plan.json -> sub_reports -> synthesis.md -> report.md 比较关键的是会创建一个 synthesis.md ,会强制 agent 在写报告之前先整合数据,标记不确定性 感觉要比 Claude 生成的内容更严谨一些 5. Search 它的搜索层是按信息源类型拆开的。 学术、代码、社交媒体、中文社交、英文社交、通用 Web 搜索,全部分开处理。 我觉得这是对的。 因为证据来源真的很重要。 GitHub Issue 和营销博客,本来就不应该有一样的权重。 最后放上他们现在还可以领的 token plan: https://www.sensenova.cn/token-plan ( 5 小时能调用 1500 次) 图文交错的邀请码在 Discord 里能领: https://discord.gg/BuTXPHmQub

v2ex · 2026-05-29 00:03:02+08:00 · tech

上周我在 WaytoAGI 的共学直播里看到了商汤最新的 skills 包,体验了一下,感觉挺不错的,这里分享给佬友们哈 先放 repo: https://github.com/OpenSenseNova/SenseNova-Skills 这个 skills 包,一共有五个场景 1. 图片&可视化 sn-infographic:接入的是他们的 SenseNova U1 的开源模型,尤其是信息图(具体名字是 SenseNova U1-8B-MoT-Infographic )可以把一个很粗糙的想法,直接做成信息图,先理解内容,再决定布局和视觉风格。这个模型我专门测过,效果和 Nano Banana 和 Image2 差不了多少 2. PPT 生成 打工人神器,里面两个小 skills sn-ppt-standard:做的是可编辑的商务 PPT sn-ppt-creative:做的是偏视觉化、整页设计感很强的 Presentation 有时候你需要的是后续还能编辑修改的 deck ;有时候你只是想快速做一个视觉冲击力强的展示页。 这俩其实根本不是一个任务。 3. 数据分析 Excel 工作流这块,比我预期里“工程化”很多。 它会根据表格行数自动选择处理方案: - 小文件:直接读取 - 中型文件:Parquet 缓存 - 大文件:流式分析 对于 10 万行以上的 Excel ,它不会直接 pd.read_excel() 全读进内存,而是改成 Streaming + Parquet 。 我有一部分业务是跨境电商,我会用这个 skills 帮我选品,大概流程是先用 1688 的插件拉到店铺销量的数据,这些数据我比较关心: 1. 哪些产品是真正卖得好的:是爆款驱动还是铺货型,如果这个店家的产品过于依赖某 1-2 个品,说明他的创新能力可能不够 2. 这个供应商的产品的价格区间都在哪:我会选择一个符合我成本范围的供应商来。因为这个价格段的产品通常是他们的优势产品。 3. 周度,月度的销量数据,如果他的销量波动太大,则可能是产能有问题,这时候如果我找他下单,则很可能出现延迟交货的情况把数据丢给 Agent ,能自动匹配到这个 skills ,然后给我分析出来我关心的点,我再决定要不要和这个工厂聊 3. Deep research 这个 skills 自定义了一套工作流,帮你深度调研某个领域,这个还没深度实验过,大概的流程是这样的: request.md -> plan.json -> sub_reports -> synthesis.md -> report.md 比较关键的是会创建一个 synthesis.md ,会强制 agent 在写报告之前先整合数据,标记不确定性 感觉要比 Claude 生成的内容更严谨一些 5. Search 它的搜索层是按信息源类型拆开的。 学术、代码、社交媒体、中文社交、英文社交、通用 Web 搜索,全部分开处理。 我觉得这是对的。 因为证据来源真的很重要。 GitHub Issue 和营销博客,本来就不应该有一样的权重。 最后放上他们现在还可以领的 token plan: https://www.sensenova.cn/token-plan ( 5 小时能调用 1500 次) 图文交错的邀请码在 Discord 里能领: https://discord.gg/BuTXPHmQub

v2ex · 2026-05-28 23:03:02+08:00 · tech

上周我在 WaytoAGI 的共学直播里看到了商汤最新的 skills 包,体验了一下,感觉挺不错的,这里分享给佬友们哈 先放 repo: https://github.com/OpenSenseNova/SenseNova-Skills 这个 skills 包,一共有五个场景 1. 图片&可视化 sn-infographic:接入的是他们的 SenseNova U1 的开源模型,尤其是信息图(具体名字是 SenseNova U1-8B-MoT-Infographic )可以把一个很粗糙的想法,直接做成信息图,先理解内容,再决定布局和视觉风格。这个模型我专门测过,效果和 Nano Banana 和 Image2 差不了多少 2. PPT 生成 打工人神器,里面两个小 skills sn-ppt-standard:做的是可编辑的商务 PPT sn-ppt-creative:做的是偏视觉化、整页设计感很强的 Presentation 有时候你需要的是后续还能编辑修改的 deck ;有时候你只是想快速做一个视觉冲击力强的展示页。 这俩其实根本不是一个任务。 3. 数据分析 Excel 工作流这块,比我预期里“工程化”很多。 它会根据表格行数自动选择处理方案: - 小文件:直接读取 - 中型文件:Parquet 缓存 - 大文件:流式分析 对于 10 万行以上的 Excel ,它不会直接 pd.read_excel() 全读进内存,而是改成 Streaming + Parquet 。 我有一部分业务是跨境电商,我会用这个 skills 帮我选品,大概流程是先用 1688 的插件拉到店铺销量的数据,这些数据我比较关心: 1. 哪些产品是真正卖得好的:是爆款驱动还是铺货型,如果这个店家的产品过于依赖某 1-2 个品,说明他的创新能力可能不够 2. 这个供应商的产品的价格区间都在哪:我会选择一个符合我成本范围的供应商来。因为这个价格段的产品通常是他们的优势产品。 3. 周度,月度的销量数据,如果他的销量波动太大,则可能是产能有问题,这时候如果我找他下单,则很可能出现延迟交货的情况把数据丢给 Agent ,能自动匹配到这个 skills ,然后给我分析出来我关心的点,我再决定要不要和这个工厂聊 3. Deep research 这个 skills 自定义了一套工作流,帮你深度调研某个领域,这个还没深度实验过,大概的流程是这样的: request.md -> plan.json -> sub_reports -> synthesis.md -> report.md 比较关键的是会创建一个 synthesis.md ,会强制 agent 在写报告之前先整合数据,标记不确定性 感觉要比 Claude 生成的内容更严谨一些 5. Search 它的搜索层是按信息源类型拆开的。 学术、代码、社交媒体、中文社交、英文社交、通用 Web 搜索,全部分开处理。 我觉得这是对的。 因为证据来源真的很重要。 GitHub Issue 和营销博客,本来就不应该有一样的权重。 最后放上他们现在还可以领的 token plan: https://www.sensenova.cn/token-plan ( 5 小时能调用 1500 次) 图文交错的邀请码在 Discord 里能领: https://discord.gg/BuTXPHmQub

LinuxDo 最新话题 · 2026-05-14 22:42:47+08:00 · tech

之前刷推老看见有KOL在转发他们的产品,这次技术报告一出来,还挺有意思的 先放架构图: 熟悉文生图模型的老友们都知道,过去的模型都是先将像素的RGB数值转化为向量,放在潜空间里(VAE层) 这次他们的统一架构NEO-Unify完全摒弃了这个做法,采取的是像素输入,像素输出,让模型直接理解图片,而不是一堆潜空间里的数据 在训练数据上,理解类和生成类数据分别用了: 理解类数据 预训练混合比例: 包含图文对 (32%)、纯文本 (37%)、详细描述 (17%) 以及信息图表 (14%)。 中期训练: 采用 SenseNova V6.5 数据集,并通过多维度过滤(采样平衡 + 提示词增强 + 模型自动化评分)进行精炼。 生成类数据 VLM 重标注 (Re-captioning): 所有图像(涵盖自然、设计、人像、合成类)都去重和 VLM 重标注流水线,确保文本与像素之间的语义对齐 交错逻辑: 数据分布包括生活方式 (44%)、信息图表 (29%) 和推理 (8%) 生成式 CoT (思维链): 每一个推理样本都包含思维链过程,在渲染像素之前,先教会模型理解场景背后的逻辑。 过去我们觉得 VAE 导致的文字模糊和纹理丢失是“必要代价”,但 U1 证明了: 只要架构选得对,原生 像素 生成比潜空间(Latent Space)更强。同时在训练方法上,也和其他传统的扩散模型不太一样: 核心方法: 无 VAE 视觉接口(VAE-Free Visual Interface): 采用 2 层卷积实现 32 倍的图像压缩编码,并使用 MLP(多层感知机)头部直接预测像素。引入了动态噪声缩放(DNS)技术,确保从 512px 到 2048px 分辨率下的信噪比(SNR)保持一致。 原生 MoT(Mixture-of-Transformers): 构建了一个统一的主干网络,使理解与生成流共享自注意力层(Self-Attention),但使用解耦的 FFN(前馈网络)和 Norm(归一化)层,并根据 Token 类型进行动态路由。 联合训练与部署: 通过结合自回归(Auto-regressive) 和 流匹配(Flow Matching)损失函数进行优化。模型经历了从预热(Warm-up)、指令微调(SFT)到 8 步蒸馏(8-step Distillation)的 6 阶段训练流水线。部署方面,利用 LightLLM/LightX2V 实现了独立并行调度。 最后放上他们现在可以免费领的token plan: https://www.sensenova.cn/token-plan (每 5 小时 1500 次免费调用,Token 消耗比别的模型低 60%) 一些ShowCase: 原文: SenseNova-U1/docs/pdf/SenseNOVA_U1.pdf at main · OpenSenseNova/SenseNova-U1 · GitHub 3 个帖子 - 3 位参与者 阅读完整话题

v2ex · 2026-05-14 18:39:01+08:00 · tech

之前刷推老看见有 KOL 在转发他们的产品,这次技术报告一出来,还挺有意思的 原文: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/pdf/SenseNOVA_U1.pdf 先放架构图: 熟悉文生图模型的老友们都知道,过去的模型都是先将像素的 RGB 数值转化为向量,放在潜空间里( VAE 层) 这次他们的统一架构 NEO-Unify 完全摒弃了这个做法,采取的是像素输入,像素输出,让模型直接理解图片,而不是一堆潜空间里的数据 在训练数据上,理解类和生成类数据分别用了: 1. 理解类数据 - 预训练混合比例: 包含图文对 (32%)、纯文本 (37%)、详细描述 (17%) 以及信息图表 (14%)。 - 中期训练: 采用 SenseNova V6.5 数据集,并通过多维度过滤(采样平衡 + 提示词增强 + 模型自动化评分)进行精炼。 2. 生成类数据 - VLM 重标注 (Re-captioning): 所有图像(涵盖自然、设计、人像、合成类)都去重和 VLM 重标注流水线,确保文本与像素之间的语义对齐 - 交错逻辑: 数据分布包括生活方式 (44%)、信息图表 (29%) 和推理 (8%) - 生成式 CoT (思维链): 每一个推理样本都包含思维链过程,在渲染像素之前,先教会模型理解场景背后的逻辑。 过去我们觉得 VAE 导致的文字模糊和纹理丢失是“必要代价”,但 U1 证明了:只要架构选得对,原生像素生成比潜空间( Latent Space )更强。同时在训练方法上,也和其他传统的扩散模型不太一样: 核心方法: - 无 VAE 视觉接口( VAE-Free Visual Interface ): 采用 2 层卷积实现 32 倍的图像压缩编码,并使用 MLP (多层感知机)头部直接预测像素。引入了动态噪声缩放( DNS )技术,确保从 512px 到 2048px 分辨率下的信噪比( SNR )保持一致。 - 原生 MoT ( Mixture-of-Transformers ): 构建了一个统一的主干网络,使理解与生成流共享自注意力层( Self-Attention ),但使用解耦的 FFN (前馈网络)和 Norm (归一化)层,并根据 Token 类型进行动态路由。 - 联合训练与部署: 通过结合自回归( Auto-regressive )和流匹配( Flow Matching )损失函数进行优化。模型经历了从预热( Warm-up )、指令微调( SFT )到 8 步蒸馏( 8-step Distillation )的 6 阶段训练流水线。部署方面,利用 LightLLM/LightX2V 实现了独立并行调度。 最后放上他们现在可以免费领的 token plan: https://www.sensenova.cn/token-plan (每 5 小时 1500 次免费调用,Token 消耗比别的模型低 60%) 一些 ShowCase:

LinuxDo 最新话题 · 2026-05-09 00:37:55+08:00 · tech

商汤科技也做 Token Plan 了,公测期间新模型免费体验,每 5 小时可以使用 1500次。 根据商汤官方发布的消息,本次总共发布两款模型,SenseNova 6.7 Flash-Lite 以及 SenseNova U1 Fast。Flash 模型属于面向工作流的多模态智能模型,可以支持文本对话与图像理解,而U1 模型则主要是专供信息图生成。 目前处于公测阶段,所有模型可以免费体验。 目前支持三款模型,除商汤自家模型外还支持 DeepSeek V4 Flash。 6 个帖子 - 5 位参与者 阅读完整话题

IT之家 · 2026-05-08 09:33:32+08:00 · tech

IT之家 5 月 8 日消息,商汤科技今日宣布,推出新一代轻量化多模态智能体模型商汤日日新 SenseNova 6.7 Flash-Lite。 同时,SenseNova Token Plan 限时免费开放,全线办公技能 SenseNova-Skills 同步在 GitHub 开源。 官方表示,SenseNova 6.7 Flash-Lite 专为“真实世界工作流”而生,采用原生多模态架构,能够像人类一样,能直接“看懂”复杂的网页布局、文档结构与财务图表,实现“看、想、做”一体化,可大幅提升数据分析、深度调研、PPT 生成等长链路复杂任务的成功率。 同时在取消了视觉转文本中间层后,它能以更小的参数量,实现智能体能力的跨越式提升,在权威智能体基准测试中取得同级别多项 SOTA。 它还可大幅降低推理过程中的 Token 消耗,在信息搜索等场景中 Token 消耗对比纯文本智能体直降 60%。 并可实现毫秒级反馈,更符合高频互动的生产环境需求。 此外,商汤正式发布了 SenseNova Token Plan,并同步开启 Token Plan 限时免费活动 。开发者首月可享受每 5 小时刷新 1500 次调用额度的无门槛调用配额,未来还将推出 Lite、Pro 等更多档位。 此外,商汤已将日日新 SenseNova 系列模型的核心能力封装为 SenseNova-Skills,并在 GitHub 开源。 IT之家附相关链接如下: SenseNova Skills 开源链接 : https://github.com/OpenSenseNova/SenseNova-Skills/ SenseNova 6.7 Flash-Lite 技术详情 : https://github.com/OpenSenseNova/SenseNova6.7