WWW.YOUINFO.SITE
标签聚合 Inference

/tag/Inference

LinuxDo 最新话题 · 2026-06-11 01:34:02+08:00 · tech

Blazing fast inference: By shifting the decode bottleneck from memory-bandwidth to compute, DiffusionGemma generates up to 4x faster token output on dedicated GPUs. (1000+ tokens per second on a single NVIDIA H100, 700+ tokens per second on NVIDIA GeForce RTX 5090). 一些补充 Diffusion是一种不同于主流文本大模型Next Token Predict的模型架构,常用于图片生成领域中。NTP是从左向右逐个token生成的,而Diffusion则是给定一块空白区域,模型预测这片区域的每个位置可能的内容,并一次次进行纠错,最终生成完整内容。 14 个帖子 - 9 位参与者 阅读完整话题

linux.do · 2026-05-06 15:21:43+08:00 · tech

Google – 5 May 26 Accelerating Gemma 4: faster inference with multi-token prediction drafters An overview of how Multi-Token Prediction (MTP) drafters are making Gemma 4 models up to 3x faster at inference. [!quote]+ 我们为 Gemma 4 系列发布了多令牌预测 (MTP) 绘图仪。通过使用专门的推测解码架构,这些起草器的速度提高了 3 倍,而输出质量或推理逻辑却没有任何下降。 https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/mtp_speed_2.mp4 3 个帖子 - 2 位参与者 阅读完整话题

www.ithome.com · 2026-04-23 08:36:54+08:00 · tech

IT之家 4 月 23 日消息,腾讯云今日发布 Xinference 供应链投毒风险通告。 腾讯云安全中心监测到,Xinference 被披露其存在供应链投毒风险。可导致攻击者在用户安装或导入受影响版本的包时,窃取云凭证、API 密钥、SSH 密钥、加密钱包、数据库凭据及环境变量等高度敏感信息,并发送至远程命令与控制(C2)服务器。 风险详情 Xorbits Inference(IT之家注:Xinference)是一个 AI 模型部署工具,让用户可以用最简单的方式运行和管理各种 AI 模型,适用于研究、开发和实际应用。 据描述,在 PyPI 仓库的 Xinference 包 2.6.0、2.6.1 及 2.6.2 版本中,由于攻击者通过入侵合法贡献者的账户(或利用自动化机器人),在项目的 __init__.py 初始化文件中植入了经过多层混淆(Base64 编码)的恶意载荷。当开发者安装受影响的包或在代码中执行 import xinference 时,该恶意代码会自动解码并在内存中执行。该恶意软件会遍历系统以收集 AWS / GCP 云服务凭证、Kubernetes 令牌、SSH 密钥、多种加密货币钱包文件、SQL / Redis / MongoDB 等数据库连接字符串、Shell 历史记录及系统环境变量,随后将这些窃取的数据打包并回传至预先设定的 C2 服务器域名 whereisitat [.]lucyatemysuperbox [.]space。 风险等级 高风险 影响版本 Xinference = 2.6.0 Xinference = 2.6.1 Xinference = 2.6.2 安全版本 Xinference <= 2.5.0 排查方法 1. 检查受影响的软件版本 pip show xinference | grep Version 判断标准:如果输出的版本号是 2.6.0 或 2.6.1 或 2.6.2,则表示您已安装了恶意软件包,系统应被视为已被入侵。 2. 检查网络指示器 命令与控制 (C2) 服务器:https://whereisitat [.]lucyatemysuperbox [.]space/ 3. 敏感信息泄露排查 检查云凭证文件:查看云凭证文件的修改时间和内容是否异常。 检查 SSH 密钥:查看 ~/.ssh/ id_rsa 和 ~/.ssh/ authorized_keys 是否有未授权的修改。 检查 Shell 历史:执行 history 或查看 ~/.bash_history、~/.zsh_history,排查是否有异常的 curl、wget、base64 编码命令。 检查环境变量:执行 env,确认敏感变量(AWS_SECRET_KEY、DB_PASSWORD)是否被打印或记录。 4. 云环境专项排查 K8s 审计:检查 kube-system 命名空间下的 Secret 是否被异常挂载或读取。 CI / CD 日志:审查 GitHub Actions、GitLab CI、Jenkins 的构建日志,确认是否在构建过程中意外泄露了凭证。 修复建议 1. 立即隔离与清除 卸载恶意版本:立即执行 pip uninstall xinference,确保删除 2.6.0-2.6.2 版本。 降级至安全版本:若需继续使用,执行 pip install xinference==2.5.0 降级至已知安全版本。 扫描残留后门:检查项目目录及 site-packages 下是否存在可疑的加密后门文件或异常缓存 (__pycache__)。 2. 核心凭证与密钥轮换 云服务凭证:立即轮换 AWS、GCP、腾讯云、阿里云等所有环境的访问密钥和 Secret Key。 仓库与 API 密钥:轮换 GitHub、GitLab、Slack、Discord、Docker Hub 等平台的 Token 或 Webhook。 数据库密码:修改所有被读取的 SQL、Redis、MongoDB、LDAP 服务密码。 加密货币钱包:立即转移受影响服务器上的所有热钱包资产。 SSH 密钥:删除受信列表中的旧公钥,重新生成新的 SSH 密钥对并替换。 3. 全面安全审计 审计 IAM 角色:检查云环境(AWS IAM、GCP Service Account)是否新增了可疑角色或权限变更。 审计操作日志:排查 CloudTrail、Cloud Audit Logs 是否存在异常 API 调用(特别是 GetSecretValue、iam:CreateAccessKey 等)。 检查计划任务 / Cron:查看系统是否存在攻击者添加的持久化定时任务。 4. 内部排查与响应 阻断 C2 通信:在防火墙或 EDR 层面封禁域名 whereisitat [.]lucyatemysuperbox [.]space 及其解析 IP。 排查横向移动:检查受感染主机是否有异常的内网扫描或 SSH 连接记录。

linux.do · 2026-04-21 20:41:25+08:00 · tech

Canopy Wave Unlimited Token Plan | The World’s First-Ever Unlimited AI Inference - Canopy... Experience the first-ever Unlimited Token Plan for AI inference. Get unlimited Access to kimi k2.6 & MiniMax M2.5 with 90% lower cost than closed models like Claude. Enjoy unlimited API calls, up to 21x faster performance, and 100% privacy protection... 他这个 token plan 用完额度之后限速有多狠 1 个帖子 - 1 位参与者 阅读完整话题