Inference - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-11 01:34:02+08:00 · tech

Blazing fast inference: By shifting the decode bottleneck from memory-bandwidth to compute, DiffusionGemma generates up to 4x faster token output on dedicated GPUs. (1000+ tokens per second on a single NVIDIA H100, 700+ tokens per second on NVIDIA GeForce RTX 5090). 一些补充 Diffusion是一种不同于主流文本大模型Next Token Predict的模型架构，常用于图片生成领域中。NTP是从左向右逐个token生成的，而Diffusion则是给定一块空白区域，模型预测这片区域的每个位置可能的内容，并一次次进行纠错，最终生成完整内容。 14 个帖子 - 9 位参与者阅读完整话题

在claude desktop里让三方模型显示为“官方名称”

LinuxDo 最新话题 · 2026-05-21 16:30:03+08:00 · tech

在Configure third-party inference里，一般来说配置官方模型claude-sonnet-4-6就是显示为Sonnet 4.6，那么参照这个格式，把gpt模型接入只要设置为claude-gpt-5-4即可变为Gpt 5.4并且可以直接设置effort level 不过要xhigh那就还是只能设置为claude-sonnet-gpt5.4(xhigh) 1 个帖子 - 1 位参与者阅读完整话题

问：kimi的“Model Inference”是哪个？

LinuxDo 最新话题 · 2026-05-08 10:27:47+08:00 · tech

订阅的kimi coding，现在支持k2.6，但显示调用的是：“Model Inference” 是个什么鬼？是不是k2.6？ 1 个帖子 - 1 位参与者阅读完整话题

加速 Gemma 4：使用多标记预测起草器加快推理速度

linux.do · 2026-05-06 15:21:43+08:00 · tech

Google – 5 May 26 Accelerating Gemma 4: faster inference with multi-token prediction drafters An overview of how Multi-Token Prediction (MTP) drafters are making Gemma 4 models up to 3x faster at inference. [!quote]+ 我们为 Gemma 4 系列发布了多令牌预测 (MTP) 绘图仪。通过使用专门的推测解码架构，这些起草器的速度提高了 3 倍，而输出质量或推理逻辑却没有任何下降。 https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/mtp_speed_2.mp4 3 个帖子 - 2 位参与者阅读完整话题

腾讯云发布 Xinference 供应链投毒风险通告：可窃取云凭证、API 密钥等

www.ithome.com · 2026-04-23 08:36:54+08:00 · tech

IT之家 4 月 23 日消息，腾讯云今日发布 Xinference 供应链投毒风险通告。腾讯云安全中心监测到，Xinference 被披露其存在供应链投毒风险。可导致攻击者在用户安装或导入受影响版本的包时，窃取云凭证、API 密钥、SSH 密钥、加密钱包、数据库凭据及环境变量等高度敏感信息，并发送至远程命令与控制（C2）服务器。风险详情 Xorbits Inference（IT之家注：Xinference）是一个 AI 模型部署工具，让用户可以用最简单的方式运行和管理各种 AI 模型，适用于研究、开发和实际应用。据描述，在 PyPI 仓库的 Xinference 包 2.6.0、2.6.1 及 2.6.2 版本中，由于攻击者通过入侵合法贡献者的账户（或利用自动化机器人），在项目的 __init__.py 初始化文件中植入了经过多层混淆（Base64 编码）的恶意载荷。当开发者安装受影响的包或在代码中执行 import xinference 时，该恶意代码会自动解码并在内存中执行。该恶意软件会遍历系统以收集 AWS / GCP 云服务凭证、Kubernetes 令牌、SSH 密钥、多种加密货币钱包文件、SQL / Redis / MongoDB 等数据库连接字符串、Shell 历史记录及系统环境变量，随后将这些窃取的数据打包并回传至预先设定的 C2 服务器域名 whereisitat [.]lucyatemysuperbox [.]space。风险等级高风险影响版本 Xinference = 2.6.0 Xinference = 2.6.1 Xinference = 2.6.2 安全版本 Xinference <= 2.5.0 排查方法 1. 检查受影响的软件版本 pip show xinference | grep Version 判断标准：如果输出的版本号是 2.6.0 或 2.6.1 或 2.6.2，则表示您已安装了恶意软件包，系统应被视为已被入侵。 2. 检查网络指示器命令与控制 (C2) 服务器：https://whereisitat [.]lucyatemysuperbox [.]space/ 3. 敏感信息泄露排查检查云凭证文件：查看云凭证文件的修改时间和内容是否异常。检查 SSH 密钥：查看 ~/.ssh/ id_rsa 和 ~/.ssh/ authorized_keys 是否有未授权的修改。检查 Shell 历史：执行 history 或查看 ~/.bash_history、~/.zsh_history，排查是否有异常的 curl、wget、base64 编码命令。检查环境变量：执行 env，确认敏感变量（AWS_SECRET_KEY、DB_PASSWORD）是否被打印或记录。 4. 云环境专项排查 K8s 审计：检查 kube-system 命名空间下的 Secret 是否被异常挂载或读取。 CI / CD 日志：审查 GitHub Actions、GitLab CI、Jenkins 的构建日志，确认是否在构建过程中意外泄露了凭证。修复建议 1. 立即隔离与清除卸载恶意版本：立即执行 pip uninstall xinference，确保删除 2.6.0-2.6.2 版本。降级至安全版本：若需继续使用，执行 pip install xinference==2.5.0 降级至已知安全版本。扫描残留后门：检查项目目录及 site-packages 下是否存在可疑的加密后门文件或异常缓存 (__pycache__)。 2. 核心凭证与密钥轮换云服务凭证：立即轮换 AWS、GCP、腾讯云、阿里云等所有环境的访问密钥和 Secret Key。仓库与 API 密钥：轮换 GitHub、GitLab、Slack、Discord、Docker Hub 等平台的 Token 或 Webhook。数据库密码：修改所有被读取的 SQL、Redis、MongoDB、LDAP 服务密码。加密货币钱包：立即转移受影响服务器上的所有热钱包资产。 SSH 密钥：删除受信列表中的旧公钥，重新生成新的 SSH 密钥对并替换。 3. 全面安全审计审计 IAM 角色：检查云环境（AWS IAM、GCP Service Account）是否新增了可疑角色或权限变更。审计操作日志：排查 CloudTrail、Cloud Audit Logs 是否存在异常 API 调用（特别是 GetSecretValue、iam:CreateAccessKey 等）。检查计划任务 / Cron：查看系统是否存在攻击者添加的持久化定时任务。 4. 内部排查与响应阻断 C2 通信：在防火墙或 EDR 层面封禁域名 whereisitat [.]lucyatemysuperbox [.]space 及其解析 IP。排查横向移动：检查受感染主机是否有异常的内网扫描或 SSH 连接记录。

有佬用过canopy wave吗？

linux.do · 2026-04-21 20:41:25+08:00 · tech

Canopy Wave Unlimited Token Plan | The World’s First-Ever Unlimited AI Inference - Canopy... Experience the first-ever Unlimited Token Plan for AI inference. Get unlimited Access to kimi k2.6 & MiniMax M2.5 with 90% lower cost than closed models like Claude. Enjoy unlimited API calls, up to 21x faster performance, and 100% privacy protection... 他这个 token plan 用完额度之后限速有多狠 1 个帖子 - 1 位参与者阅读完整话题

腾讯云发布Xinference供应链投毒风险通告

36kr.com · None · tech

36氪获悉，腾讯云公告，腾讯云安全中心监测到，Xinference被披露其存在供应链投毒风险。可导致攻击者在用户安装或导入受影响版本的包时，窃取云凭证、API密钥、SSH密钥、加密钱包、数据库凭据及环境变量等高度敏感信息，并发送至远程命令与控制（C2）服务器。

/tag/Inference